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Prólogo 


Este  libro  es  el  resultado,  por  un  lado  de  la  experiencia  didáctica  adquirida  por  los  autores  al 
brindar  cursos  de  estadística  de  grado  y posgrado  en  el  área  biológica;  por  otro  lado  también  es  el 
fruto  de  muchos  años  de  asesoramiento  estadístico  a investigadores  de  esta  universidad. 

El  mismo  consta  de  10  Capítulos,  en  los  cuales  se  desarrollan  los  conceptos  y técnicas  estadísticas 
de  tal  forma  que  cualquier  lector  con  conocimientos  elementales  de  matemática  pueda  entender  la 
utilidad  de  las  herramientas  estadísticas  en  su  área  específica.  La  idea  principal  se  basa  en 
presentar  un  problema  relacionado  con  el  área  de  la  biología  e introducir  los  conceptos  estadísticos 
necesarios  para  la  resolución  del  mismo.  Todos  los  problemas,  ejemplos  y ejercicios  presentados 
en  este  libro  han  sido  seleccionados  de  manera  que  resulten  de  interés  para  el  estudiante  y 
profesionales  del  área  de  las  ciencias  biológicas.  Los  mismos  fueron  proporcionados  por  profesores 
y/o  profesionales  del  área  biológica  y otros  resultaron  de  los  trabajos  de  asesoramiento. 

El  objetivo  que  se  desea  alcanzar  con  este  texto  es  el  de  proveer  al  eventual  lector  la 
metodología  estadística  elemental  adecuada  para  la  resolución  de  los  diferentes  problemas  (que 
comúnmente  se  les  presentan  a los  investigadores  del  área  biológica)  e interpretar  la  solución  de 
los  mismos.  Por  las  razones  expuestas  y a pesar  de  que  existen  muchos  “paquetes”  estadísticos 
que  permiten  resolver  rápidamente  los  cálculos  involucrados  en  la  resolución  de  un  problema,  en 
esta  primera  edición  no  hemos  contemplado  la  resolución  de  los  ejercicios  por  medio  de  ellos. 

En  este  texto,  se  desea,  de  alguna  manera,  poner  en  relevancia  la  utilidad  de  la  estadística 
en  situaciones  en  las  que  hay  que  tomar  decisiones. 

Queremos  agradecer  a todos  los  docentes  que  contribuyeron  con  material  y/o  sugerencias 
para  la  realización  de  este  libro,  así  como  a todos  aquellos  que  de  alguna  manera  incentivaron 
nuestro  trabajo  y confiaron  en  nuestro  esfuerzo.  Finalmente,  queremos  agradecer  a la  Universidad 
Nacional  de  Río  Cuarto  que  hizo  posible  esta  publicación. 
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Tratamiento  de  Datos 


Objetivos: 

♦ Reconocer  población,  muestra,  unidad  experimental. 

♦ Identificar  distintos  tipos  de  variables. 

♦ Resumir  e interpretar  la  información  muestral  en  tablas  y gráficos. 


1.1  Introducción 

La  Ciencia,  en  general,  avanza  por  dos  metodologías  fundamentales:  deducción  e 
inducción.  Con  la  deducción,  a partir  de  ciertos  principios  básicos  y mediante  razonamientos 
lógicamente  correctos,  se  va  tratando  de  obtener  consecuencias  y proposiciones  que 
constituyen  la  teoría.  La  inducción  científica,  procede  por  otro  camino  bien  diferente:  partiendo 
de  hechos  y observaciones  experimentales,  trata  de  llegar  a conclusiones  generales  sobre  el 
objeto  que  estudia. 

Thomas  Bayes,  en  1763,  fue  el  primero  en  introducir  elementos  matemáticos  en  este 
proceso  inductivo,  dando  así  los  pasos  iniciales  en  lo  que  ha  llegado  a ser  la  estadística  actual. 

Así,  la  Estadística  es  una  rama  del  Conocimiento  Científico  que  se  ocupa  del  estudio 
de  las  mejores  formas  de  agrupar  y analizar  datos  y de  establecer  conclusiones  acerca  del 
conjunto  del  que  se  han  recogido  tales  datos. 

Un  poco  de  Historia  . . . 

Desde  la  antigüedad,  reyes  y emperadores  se  preocuparon  por  conseguir  datos  sobre 
sus  posesiones.  El  Imperio  Romano,  establecido  en  el  año  27  antes  de  Cristo,  fue  el  primer 
régimen  político  que  recogió  una  gran  cantidad  de  datos  sobre  la  población,  superficie  y bienes 
de  todos  los  territorios  bajo  control.  Pero  hasta  comienzos  del  siglo  XVII  la  estadística  era 
puramente  descriptiva,  es  decir,  una  enumeración  sistemática  y ordenada  de  datos. 

Sin  embargo,  la  palabra  estadística  para  designar  la  obtención,  el  estudio  y la 
interpretación  de  grandes  masas  de  datos,  parece  que  fue  utilizada  por  primera  vez  un  siglo 
más  tarde  (a  mediados  del  XVIII)  en  Alemania. 

En  la  segunda  mitad  del  siglo  XIX  comienza  un  período  de  creación  y aplicación  de 
técnicas  que  permiten  “inferir”  el  comportamiento  de  fenómenos  a partir  de  estudios 
experimentales. 

La  estadística  se  constituyó  paulatinamente  en  una  ciencia  independiente  a principios 
del  siglo  XX  con  los  trabajos  de  los  británicos  Karl  Pearson,  sobre  los  mecanismos  de  la 
evolución  y herencia,  y de  R.A.  Fisher,  con  sus  estudios  sobre  tecnología  agrícola. 
Posteriormente  la  estadística  se  ha  convertido  en  una  base  científica  esencial  para  todas  las 
ciencias. 

De  ningún  modo  se  pretende  escribir  la  historia  de  la  evolución  de  la  estadística  sino 
sólo  dar  una  breve  idea  del  abismal  cambio  entre  sus  orígenes  y su  estado  actual. 
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Algunos  de  los  campos  de  aplicación  de  la  metodología  estadística  son:  Biología, 
Agronomía,  Veterinaria,  Zootecnia,  Medicina,  Ingeniería,  Física,  Ciencias  Sociales,  etc.. 

La  noción  de  estadística  se  derivó  originalmente  del  vocablo  "estado"  porque  ha  sido 
función  tradicional  de  los  gobiernos  centrales  llevar  registros  de  población,  nacimientos, 
defunciones,  cosechas,  Impuestos  y muchas  otras  actividades.  Contar  y medir  estos  hechos 
genera  muchos  datos  numéricos. 

Las  personas  no  relacionadas  con  la  actividad  científica  conciben  a la  estadística  como 
columnas  de  cifras  o gráficos  asociados  con,  por  ejemplo,  promedios,  índices  de  divorcio, 
precios  de  acciones,  exportaciones,  Importaciones. 

Este  concepto  se  aproxima  mucho  a la  definición  tradicional  de  estadística  la  cual  es 
“la  compilación,  organización,  resumen,  presentación  y análisis  de  datos  numéricos  ". 

En  realidad  la  función  principal  de  la  estadística  es  elaborar  métodos  y procedimientos 
que  ayuden  a tomar  decisiones  frente  a la  ¡ncertldumbre,  es  decir  que,  además  de  organizar, 
analizar  y presentar  información  también  la  interpreta. 

Como  procedimiento  de  toma  de  decisiones,  la  estadística  se  emplea  en  toda  clase  de 
estudios  científicos. 

Los  métodos  científicos  se  utilizan  para  contestar  preguntas  tales  como:  ¿Es  efectiva  la 
nueva  dieta?,  ¿Es  eficaz  el  nuevo  medicamento  para  el  dolor  de  cabeza  ? 

En  realidad,  la  estadística  ha  llegado  a ser  una  "herramienta"  para  todos  aquellos 
profesionales  que  se  ponen  en  contacto  con  datos  observaclonales  o experimentales  o bien 
para  quienes  utilizan  los  resultados  estadísticos  determinados  por  otros.  Tales  personas 
necesitan  tener  alguna  familiaridad  con  principios  estadísticos  para  evitar  el  mal  uso  de  la 
misma  o la  mala  interpretación  de  los  resultados  generados  por  ella. 

En  los  últimos  años  el  masivo  acceso  a las  computadoras  ha  facilitado  la 
¡mplementaclón  y aplicación  de  métodos  estadísticos  que  permiten  describir  y ensayar  nuevos 
productos  e ¡deas.  Por  ejemplo,  los  médicos  estudian  los  datos  obtenidos  en  los  experimentos 
para  desarrollar  nuevas  medicinas  y poner  a prueba  su  eficacia,  el  gobierno  de  nuestro  país 
emplea  dinero  y personas  para  recolectar  y analizar  datos  a través  del  Instituto  Nacional  de 
Estadísticas  y Censos  (I.N.D.E.C.). 

De  muchas  maneras  se  emplea  a la  estadística  para  conocer  lo  que  acontece  y lo  que 
pueda  suceder  en  el  futuro. 

La  Estadística  se  ocupa  entonces  de  la  recolección  de  datos  para 
descubrir,  a través  de  ellos,  nuevos  hechos  o sea  para  producir 
nuevas  conclusiones  e ideas. 

Generalmente  el  investigador  formula  un  problema  de  su  especialidad  y luego  junto  al 
estadístico  lo  transcribe  al  lenguaje  estadístico  y,  una  vez  realizado  el  análisis  de  los  datos, 
traduce  los  resultados  obtenidos  en  términos  del  problema  planteado.  En  lo  que  se  refiere  al 
lenguaje  estadístico,  existen  algunas  palabras,  como  por  ejemplo  Población  y Muestra,  que 
tienen  una  acepción  muy  particular,  lo  cual  requiere  que  se  las  especifique  con  cuidado  y que 
se  diferencie  su  utilización  de  la  dada  en  el  lenguaje  cotidiano. 


1.2  Formulación  de  problemas  y algunas  definiciones  fundamentales 

Se  comenzará  formulando  problemas,  de  tipo  experimental  a partir  de  los  cuales  se 
intentará  deducir  algunos  conceptos  útiles. 
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Formulación  de  problemas: 

1.1  Se  propone  una  nueva  dieta  para  novillos. 

1.2  Un  laboratorio  farmacéutico  presenta  un  nuevo  medicamento  para  aliviar  el  dolor  de 
cabeza. 

1.3  Se  trata  de  imponer  una  variedad  de  maíz  resistente  al  Mal  de  Río  Cuarto. 

1.4  Una  aceitera  desea  determinar  el  grado  de  toxicidad  de  un  lote  de  semillas  de  girasol 
destinadas  a la  exportación. 

En  cada  situación  planteada  el  problema  se  reduce  a imponer  un  nuevo  "tratamiento", 
entendiendo  por  tratamiento  a una  nueva  situación. 

A continuación  se  analizan  los  distintos  problemas: 

Problema  1.1:  En  esta  situación  se  trata  de  imponer  una  nueva  dieta,  por  lo  que  surgen 
naturalmente  algunas  preguntas  como,  ¿a  quiénes?,  ¿a  todos  los  novillos  del  país?,  ¿en  toda 
la  provincia?,  ¿a  novillos  de  cualquier  raza?,  ¿hay  que  tener  en  cuenta  el  peso  inicial?.  En 
primer  lugar  se  le  dará  la  dieta  a novillos  del  mismo  peso  inicial  y no  de  cualquier  raza,  sino  a 
novillos  de  raza  Charoláis  (raza  sobre  la  que  se  desea  imponer  la  nueva  dieta),  por  tanto  se 
está  restringiendo  el  efecto  de  la  dieta  a un  conjunto  especial  "novillos  de  la  raza  Charoláis,  con 
un  cierto  peso  iniciar.  A este  conjunto  se  lo  denomina  Población  de  Unidades. 

Problema  1.2:  El  laboratorio  farmacéutico  desea  imponer  en  el  mercado  un  nuevo 
medicamento  para  disminuir  el  dolor  de  cabeza  en  adultos.  Pero  ¿este  medicamento  será 
efectivo  para  mujeres?,  ¿para  varones?,  ¿para  personas  con  algún  síntoma  especial?.  Dado 
que  el  medicamento  es  para  adultos  se  debe  definir  claramente  a partir  de  que  edad  se 
considera  a una  persona  adulta,  además  no  se  hace  distinción  de  sexo  ni  de  ningún  síntoma 
inicial,  por  lo  tanto  se  puede  pensar  que  este  medicamento  está  destinado  a aliviar  el  dolor  de 
cabeza  en  “adultos  (hombres,  mujeres)  mayores  de  una  cierta  edad".  Este  conjunto  especial  se 
llama  Población  de  Unidades. 

Problema  1.3:  Se  desea  mejorar  en  la  zona  de  Río  Cuarto  el  rendimiento  de  maíz  para  lo  que 
se  buscó  un  híbrido  resistente  al  Mal  de  Río  Cuarto,  el  cual  afecta  el  rendimiento  de  dicho 
cultivo.  Las  preguntas  ahora  son  ¿cuál  es  la  zona  sobre  la  que  se  recomendará  este  híbrido?, 
¿en  todo  el  país?,  ¿en  la  provincia  de  Córdoba?,  ¿en  el  Departamento  Río  Cuarto?.  Si  se 
decide  probarlo  en  el  Departamento  Río  Cuarto,  el  conjunto  de  “todas  las  parcelas  del 
Departamento  Río  Cuarto  que  podrían  ser  sembradas  con  la  nueva  variedad”  será  la  Población 
de  Unidades. 

Problema  1.4:  Para  determinar  el  grado  de  toxicidad  de  semillas  de  girasol,  almacenadas  en 
silos  de  una  aceitera,  se  elige  al  azar  un  silo  de  semillas  de  girasol  con  ciertas  características. 
Así,  las  preguntas  que  se  pueden  realizar  son:  ¿el  silo  tiene  almacenadas  semillas  de  la  misma 
zona  agrícola?,  ¿todos  los  silos  son  semejantes,  en  cuanto  a su  construcción?  ¿todos  son 
conservados  de  la  misma  manera?  Luego,  en  este  caso  se  puede  considerar  a la  Población  de 
Unidades  como  el  conjunto  de  “todos  los  grupos  de  semillas  de  girasol  que  conforman  los  silos” 
de  la  aceitera  en  estudio. 

Antes  de  definir  formalmente  la  población  de  unidades  es  necesario  dar  el  concepto  de 
unidad  experimental. 

Definición  1:  La  Unidad  Experimental  es  el  mínimo  objeto  de  estudio  sobre  el  cual  se  realiza 
la  medición  cuantitativa  o cualitativa. 
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En  cada  uno  de  los  problemas  planteados  se  define  la  unidad  experimental,  así  se 
tiene:  1)  un  novillo  de  raza  Charoláis  con  un  determinado  peso  inicial,  2)  un  adulto  con  dolor  de 
cabeza,  3)  una  parcela  del  Departamento  de  Río  Cuarto  que  se  podría  sembrar  con  la  variedad 
en  estudio,  4)  un  grupo  de  semillas  extraído  con  un  calador  de  silos  de  la  aceitera  en  estudio. 

Definición  2:  La  Población  de  Unidades  es  el  conjunto  de  unidades  experimentales  con  una 
característica  cualitativa  o cuantitativa  en  común  sobre  las  cuales  se  extraen  las  conclusiones 
del  análisis. 

En  cada  uno  de  los  problemas  planteados  la  población  de  unidades  es:  1)  todos  los 
novillos  de  raza  Charoláis  con  un  determinado  peso  inicial,  2)  todos  los  adultos  con  dolor  de 
cabeza,  3)  todas  las  parcelas  del  Departamento  Río  Cuarto  que  se  podrían  sembrar  con  maíz, 
4)  todos  los  conjuntos  posibles  de  semillas  que  se  pueden  obtener  con  el  calador  de  silos  de  la 
aceitera  en  estudio. 


Definición  3:  Variable  es  una  propiedad  objetiva  con  respecto  a la  cual  las  unidades 
experimentales  de  la  población  difieren  de  manera  apreciable.  Es  la  característica  que  se  le 
"mide  u observa"  a la  unidad  experimental,  después  de  haber  sido  sometida  al  tratamiento. 

En  los  problemas  planteados  anteriormente,  las  variables  son:  peso,  tiempo, 
rendimiento  y grado  de  toxicidad,  respectivamente. 

En  general  las  variables,  de  acuerdo  a su  naturaleza,  pueden  ser  clasificadas  en: 


Variables 


Cuantitativas 


Cualitativas 


Discretas 


Continuas 


1-  Cuantitativas  (o  Medióles):  Son  aquellas  cuyos  diferentes  estados  se  pueden  expresar  con 
números.  Ellas  a su  vez  pueden  clasificarse  en  Discretas  y Continuas. 

• Discretas:  Una  variable  se  considera  discreta  cuando  los  valores  que  asume  pasan  de  un 
valor  a otro  consecutivo,  sin  que  pueda  tomar  valores  intermedios. 

Ejemplo  1:  Número  de  plantas  atacadas,  número  de  hojas,  número  de  gusanos,  número  de 
bacterias,  número  de  crías  por  parición. 

• Continuas:  Una  variable  se  considera  continua  cuando  los  valores  que  asume  pueden 
tomar  cualquier  valor  real  comprendido  entre  dos  valores  dados. 

Ejemplo  2:  Peso,  altura,  longitud,  ganancia  de  peso,  temperatura,  tiempo. 

2-  Cualitativas:  Son  aquellas  cuyos  diferentes  estados  se  expresan  por  medio  de  categorías  o 
cualidades. 


Ejemplo  3:  Color  de  ojos,  color  de  pelaje,  sexo,  raza. 

Definición  4:  Se  llama  Población  Estadística  al  conjunto  de  todos  los  valores  que  resultarían 
de  “medir”  la  variable,  luego  de  aplicar  el  tratamiento  a las  unidades  experimentales  que  forman 
la  población  de  unidades. 
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Gráflcamente  se  tiene 


Tratamiento  de  Datos 


P.U.  X:  peso  P.E. 


Puestos  en  el  lugar  del  investigador  que  desea  Imponer  en  cada  caso  un  nuevo 
tratamiento,  ¿será  conveniente  someter  a todas  las  unidades  experimentales  al  tratamiento 
para  determinar  si  éste  es  efectivo?. 

La  respuesta  a esta  pregunta  es  si.  Pero  por  otro  lado  la  inspección  de  todas  las 
unidades  experimentales  es  imposible  o poco  práctico  por  razones  de  tiempo  y costo,  a menos 
que  la  población  en  estudio  sea  pequeña. 

Pero  entonces,  ¿la  solución  está  en  someter  sólo  a una  unidad  experimental  al 
tratamiento  en  estudio?,  éste  tampoco  es  el  camino  correcto  pues  con  la  respuesta  de  sólo  una 
unidad  experimental  no  se  puede  tomar  una  decisión  válida.  La  solución  está  en  tomar  un 
subconlunto  representativo  de  la  población  en  estudio.  Para  determinar  cuántas  y cuáles 
unidades  experimentales  deberán  pertenecer  a este  subconjunto,  se  utilizan  algunas  técnicas 
estadísticas  que  no  serán  abordadas  en  este  texto  (Steel,  R.  y Torrie,  J.  -1980). 

De  ahora  en  más  se  trabajará  con  los  conceptos  sobre  uno  de  los  problemas 
planteados. 


Se  desea  imponer  una  nueva  dieta  en  novillos  de  la  raza 
Charoláis,  con  un  determinado  peso  inicial. 

Como  no  se  puede  probar  el  tratamiento  en  sólo  una  unidad  experimental  ni  tampoco 
en  toda  la  población  se  trata  de  encontrar  un  conjunto  representativo  donde  hacerlo.  El 
problema  ahora  es  cómo  generar  dicho  conjunto  para  que  sea  representativo  de  la  población 
en  estudio.  Una  forma  de  hacerlo  para  que  las  técnicas  estadísticas  puedan  ser  aplicadas  es  la 
siguiente: 


Elegir  n novillos  al  azar  de  la  raza  Charoláis  de  un  cierto  peso 

inicial. 

Definición  5:  Cada  vez  que  se  seleccionan  al  azar  n unidades  experimentales  para  luego 
aplicarles  un  tratamiento  se  dice  que  se  realiza  un  Experimento  Aleatorio. 

En  el  Problema  1.1  las  n unidades  experimentales  son  los  n novillos  de  la  raza 
Charoláis  con  un  cierto  peso  inicial. 

Definición  6:  Al  conjunto  de  unidades  experimentales  seleccionadas  se  lo  denomina  Muestra 
de  Unidades. 

Luego,  se  puede  decir  que  una  Muestra  es  un  subconjunto  de  una  Población. 

Una  rama  de  la  Estadística  estudia  acerca  de  cuántas  y cuáles  unidades 
experimentales  deben  ser  seleccionadas  para  generar  una  muestra  representativa  de  la 
población  en  estudio.  Cuando  en  estadística  se  dice  que  una  muestra  es  representativa, 
significa  que  es  un  conjunto  que  reproduce  la  población  en  estudio  y por  tanto  puede  ser 
utilizado  para  conocer  alguna  característica  de  la  misma. 
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Definición  7:  Al  conjunto  de  resultados  obtenidos  al  “medir  u observar”  la  variable  a cada 
elemento  de  la  muestra  de  unidades  se  la  denomina  Muestra  Estadística. 

Notar  que  éste  es  el  conjunto  de  valores  de  variable  utilizado  para  realizar  los  análisis 
estadísticos. 

Retomando  el  Problema  1.1,  se  tiene 

Muestra  de  Unidades:  Los  n animales  de  la  raza  Charoláis  con  cierto  peso  Inicial  a los  que  se 
les  va  a suministrar  la  nueva  dieta.  Esto  se  puede  expresar  como 

(animal-i,  animal2,...,animaln) 

Variable:  Peso.  Tipo:  Cuantitativa  continua. 

Muestra  Estadística:  Los  n valores  de  peso  correspondientes  a los  animales  a los  que  se  les 
aplicó  la  dieta.  Esto  se  puede  expresar  como 

(Peso-i,  Peso2,  ....  Peson) 

Puede  ocurrir  que  más  de  una  unidad  experimental  tenga  el  mismo  peso,  por  ello  es 
que  se  da  la  siguiente  definición. 

Definición  8:  Se  llama  frecuencia  absoluta  de  un  valor  de  variable  X¡  al  número,  f¡,  de  veces 
que  este  valor  aparece  en  la  muestra. 

Una  vez  obtenida  la  muestra  estadística,  es  conveniente  resumir  la  información  de  la 
misma.  Para  ello  se  utilizan  tablas,  gráficos  y valores  descriptivos,  a todo  lo  cual  se  lo  llama 

Estadística  Descriptiva. 


1.3  Tablas  y Gráficos 


1.3.1  Tablas 

Ejemplo  4:  Suponga  que  15  novillos  de  cierto  peso  inicial  de  raza  Charoláis  son  sometidos  a 
la  nueva  dieta  y se  obtienen  los  siguientes  pesos  en  kg. 

530  498  544  498  532  560  582  560 
560  532  544  532  532  582  560 

Esta  información  puede  ser  resumida  en  una  tabla  de  frecuencias  no  agrupadas. 


Tabla  1:  Número  de  animales  de  acuerdo  al  peso 


XpPeso 

fi 

fri 

Fai 

498 

2 

2/15 

2 

530 

1 

1/15 

3 

532 

4 

4/15 

7 

544 

2 

2/15 

9 

560 

4 

4/15 

13 

582 

2 

2/15 

15 

15 

1 
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X:  variable  en  estudio,  peso. 


Tratamiento  de  Datos 


X¡:  diferentes  valores  de  la  variable  (valores  de  peso). 

f¡:  frecuencia  absoluta  del  valor  de  variable  X¡  ( Nro'  de  novillos  con  peso  X¡). 

fr¡:  frecuencia  relativa  del  valor  de  variable  X¡  ( Proporción  de  novillos  con  peso  X¡). 

En  general: 

k:  Indica  el  número  de  valores  distintos  de  la  variable,  en  este  caso  k=6  y 

n:  Indica  el  tamaño  de  la  muestra,  en  este  caso  es  n=15  (en  general  k < n),  donde 

k 

n=fi+f2+...+fk,  lo  que  puede  expresarse  como  n = Zf¡  ■ 

i=l 

Definición  9:  Se  llama  frecuencia  relativa  (fr¡)  del  1-éslmo  valor  de  variable  X¡  a la  frecuencia 
absoluta  dividida  por  el  tamaño  de  la  muestra,  en  símbolos 


Definición  10:  La  frecuencia  acumulada  (Fa¡)  correspondiente  al  valor  X¡  es  la  suma  de  las 
frecuencias  absolutas  de  los  valores  de  variable  menores  o i guales  a X¡. 

La  Información  de  la  Tabla  1 se  puede  leer,  por  ejemplo,  de  la  siguiente  manera: 

• la  frecuencia  absoluta  indica  que  4 novillos  tuvieron  un  peso  de  532  kg. 

• la  frecuencia  relativa  Indica  que  de  los  15  animales  4 tuvieron  un  peso  de  532  kg.,  o que 

aproximadamente  el  27%  de  los  animales  pesan  532  kg. 

• la  frecuencia  acumulada  dice  que  7 animales  alcanzaron  532  kg.  o menos. 

SI  hubiera  muchos  valores  diferentes  de  variable,  esta  tabla  no  sería  adecuada  para 
resumir  la  información. 

Ejemplo  5:  Suponga  que  20  novillos  de  la  raza  Charoláis  con  un  determinado  peso  Inicial  son 
sometidos  a la  nueva  dieta.  Los  resultados  obtenidos  son: 

490  498  499  500  532  531  518  516  540  561 

555  566  562  603  602  610  612  612  525  583 

SI  se  trata  de  construir  una  tabla  como  la  anterior,  se  podrá  observar  que  la  misma  no 
resume  la  información  de  la  muestra. 

Es  por  ello  que  surge  la  necesidad  de  construir  otro  tipo  de  tablas,  en  las  cuales  se 
agrupan  los  valores  de  variable  en  intervalos. 

Así  en  este  caso  se  procede  como  se  Indica  a continuación: 

Dado  que  se  deben  construir  intervalos,  hay  que  tener  en  cuenta  la  cantidad  y la 
longitud  conveniente  de  cada  uno.  En  base  al  Ejemplo  5,  una  regla  práctica  para  construirlos 
es: 


1.  Usark=5,  donde  k indica  el  número  de  intervalos. 

2.  Xmáx=612  y Xm¡n=490 
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, (Xmax-Xmin)  612-490  _ . . 

3.  h = = = 24.4  = 25  , donde  h indica  la  longitud  de  cada 

intervalo.  El  resultado  de  h se  redondea  siempre  por  exceso  y debe  tener  la  misma 
cantidad  de  decimales  que  los  datos. 


4.  Ahora,  como  Xm¡n+h  = 490+25  = 515  entonces  el  primer  intervalo  es  [490,515), 
que  incluye  al  valor  490  y no  al  valor  515;  el  segundo  intervalo  y los  siguientes 
quedan  como  se  observa  en  la  tabla.  El  último  es  siempre  un  intervalo  cerrado. 

A continuación  se  muestra  la  tabla  de  frecuencias  agrupadas  para  los  datos  del 
Ejemplo  5. 


Tabla  2:  Número  de  animales  de  acuerdo  al  peso 


Intervalo  de  Clase 

Conteo 

f¡ 

fri 

[490,  515) 

4 

4/20 

[515,  540) 

5 

5/20 

[540,  565) 

4 

4/20 

[565,  590) 

2 

2/20 

[590,  615j 

HwKBI  ImIííIIIbI' 

5 

4/20 

20 

1 

Las  frecuencias  f¡  y fr¡  representan,  respectivamente,  a la  frecuencia  absoluta  y relativa 
del  1-éslmo  intervalo. 

Para  completar  la  descripción  de  estos  datos  se  debe  realizar  otra  tabla  con  las 
frecuencias  acumuladas,  que  será  descrlpta  en  la  Sección  1.3.2  (Tabla  4). 

Para  construir  estos  intervalos  se  han  tenido  en  cuenta  algunas  características,  tales 

como: 


1 . El  primer  intervalo  de  clase  debe  contener  al  valor  mínimo  y el  último  al  máximo. 

2.  La  cantidad  de  intervalos  debe  aumentar  a medida  que  aumenta  n.  El  número  k de 
intervalos  aconsejable  de  acuerdo  al  tamaño  de  la  muestra  es: 


n < 50 

50  < n < 100 
100  < n < 500 
500  <n<  2000 
n > 2000 


k=5,6 
k=6,7 
k=7,8  o 9 
k=l  0, 11,12 
k=13,14,...,20 


Cuando  se  trabaja  con  este  tipo  de  tabla  se  toma  como  representante  de  cada  Intervalo 
al  punto  medio  del  mismo,  el  que  recibe  el  nombre  de  Marca  de  clase  del  intervalo,  se  denota 

por  X¡  para  el  intervalo  i y se  calcula  como 


X = 


X _i_  x 

vLím.  Inferior  vLím.  Superior 


Notar  que  la  elección  de  la  tabla  para  resumir  la  Información  de  la  muestra  estadística 
no  depende  solamente  de  la  variable  en  estudio,  sino  también  del  tamaño  de  muestra  y de  las 
frecuencias,  pues  si  muchos  valores  de  variable  son  coincldentes  una  tabla  de  frecuencias  no 
agrupadas  seguramente  resume  muy  bien  la  información  de  la  muestra,  en  tanto  que  si  los 
valores  de  variable  no  se  repiten,  entonces  una  tabla  de  frecuencias  agrupadas  es  la 
adecuada. 
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Definición  11:  La  frecuencia  acumulada  (Fa¡)  correspondiente  al  i-ésimo  intervalo  es  la  suma 
de  las  frecuencias  absolutas  de  ese  intervalo  con  las  frecuencias  de  los  anteriores. 

La  Información  de  la  Tabla  2 se  puede  leer,  por  ejemplo,  de  la  siguiente  forma: 

• la  frecuencia  absoluta  está  Indicando  que  hay  4 animales  que  entre  540  y 565  kg. 

• la  frecuencia  relativa  indica  que  de  los  20  animales  4 tuvieron  un  peso  entre  540  y 565  kg.,  o 
que  aproximadamente  el  20%  de  los  animales  pesan  entre  540  y 565  kg. 

En  los  dos  ejemplos  anteriores  se  han  presentado  variables  cuantitativas,  ahora  se 
dará  un  ejemplo  donde  la  variable  observada  es  de  tipo  cualitativa. 

Ejemplo  6:  En  una  cabaña  se  desea  clasificar  a los  equinos  de  una  cierta  raza  y edad  de 
acuerdo  al  color  del  pelaje.  Para  ello  se  seleccionaron  aleatoriamente  20  animales  a los  que  se 
les  observó  el  color  del  pelaje  clasificándolos  en  a:  alazán  z:  zaino  y t:  tordillo,  obteniéndose 
los  siguientes  datos: 

zatzttzaazatataaazat 

La  información  de  una  muestra  estadística  donde  la  variable  observada  es  de  tipo 
cualitativo  se  puede  resumir  sólo  en  una  tabla  de  frecuencias  no  agrupadas.  Luego  para  este 
caso  se  tiene 


Tabla  3:  Clasificación  de  equinos  según  el  color  del  pelaje 


Xj  (color  de  pelaje) 

fi 

fri 

z 

5 

a 

9 

9/20 

t 

6 

6/20 

20 

1 

La  información  de  la  Tabla  3 se  interpreta,  por  ejemplo,  de  la  siguiente  forma: 

• la  frecuencia  absoluta  está  Indicando  que  hay  5 animales  de  color  zaino. 

• la  frecuencia  relativa  esta  indicando  que  de  los  20  animales  5 son  de  color  zaino,  o que  el 
25%  de  los  animales  de  la  muestra  son  de  color  zaino. 

Cuando  la  variable  en  estudio  es  de  tipo  cualitativo,  la  frecuencia  acumulada  no  tiene 
sentido,  pues  los  valores  de  variables  no  tienen  un  orden  natural. 


1.3.2  Gráficos 

Otra  forma  de  presentar  la  información  muestral  es  a través  de  gráficos.  Éstos 
permiten,  cuando  han  sido  correctamente  realizados,  obtener  en  forma  rápida  una  primera  idea 
del  comportamiento  de  los  datos  a ser  analizados. 

En  la  construcción  de  los  gráficos  no  hay  reglas  estrictas  y generales  que  deban  ser 
seguidas  pero  sí  es  necesario  tener  en  cuenta  algunas  recomendaciones,  como  por  ejemplo: 

a)  Aquel  gráfico  que  alcance  su  objetivo  con  la  máxima  sencillez  será  el  más  efectivo. 

b)  La  representación  gráfica  debe  ser  clara  y simple  para  que  con  una  “mirada”  se 
tenga  una  idea  de  la  distribución  de  los  datos. 

c)  Toda  representación  gráfica  debe  explicarse  por  sí  misma,  para  lo  cual,  deben  estar 
indicados  el  título,  origen  y escala  (el  título  debe  expresar  con  claridad  y en  forma 
breve  aquello  que  se  propone  mostrar  con  el  gráfico). 
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d)  Por  lo  general  en  el  eje  de  las  ordenadas  (vertical)  se  representa  la  frecuencia  y los 
valores  de  variable  en  el  eje  de  las  abscisas  (horizontal).  Las  dos  escalas  que  se 
emplean  deben  marcarse  con  toda  claridad  como  así  también  las  unidades  en  que 
están  expresadas. 

e)  El  eje  horizontal  no  necesariamente  debe  comenzar  en  cero  pero  sí  el  eje  vertical, 
para  evitar  estimaciones  visuales  erróneas. 

f)  En  cuanto  al  tamaño  del  gráfico  se  deben  elegir  escalas  adecuadas  a la  magnitudes 
que  se  quieren  representar  y al  tipo  de  fenómeno  que  está  en  estudio,  por  cuanto  el 
uso  de  escalas  incorrectas  puede  llevar  a falsas  ¡deas  acerca  del  comportamiento 
de  las  variables;  por  ejemplo  una  escala  muy  estrecha  en  las  abscisas  y muy  amplia 
en  las  ordenadas  puede  resultar  en  un  gráfico  que  magnifique  las  fluctuaciones  de 
la  variable  de  interés;  por  el  contrario  una  escala  muy  amplia  en  las  abscisas  y 
estrecha  en  las  ordenadas  dará  como  resultado  un  gráfico  achatado  y suavizará  en 
demasía  las  fluctuaciones  de  la  variable  en  estudio. 

g)  El  gráfico  debe  tener  una  referencia  acerca  de  la  fuente  de  donde  provienen  los 
datos  que  se  representan,  indicando  autor,  título,  volumen,  página,  editor  y fecha. 
La  misma  se  ubica  en  la  parte  inferior  del  gráfico. 

Los  gráficos  que  serán  utilizados  aquí  para  representar  la  información  de  las  tablas 
construidas  anteriormente  son: 


a)  Para  Tablas  de  Frecuencias  no  Agrupadas 
1.  Diagrama  de  Barras 

En  un  sistema  de  coordenadas  cartesianas  se  representan  en  el  eje  de  abscisas  los 
valores  de  la  variable  X y en  el  eje  de  ordenadas  las  frecuencias  absolutas  f¡  (o 
equivalentemente  las  frecuencias  relativas  fn).  Sobre  cada  valor  de  la  variable  se  levanta  una 
línea  o una  barra  de  ancho  fijo  y altura  f¡.  Por  ejemplo  para  los  datos  del  Ejemplo  4,  el 
diagrama  de  barras  que  corresponde  es  el  siguiente: 


Gráfico  1:  Distribución  de  novillos  de  acuerdo  al  peso 

2.  Polígono  de  Frecuencias  Acumuladas 

El  polígono  de  frecuencias  acumuladas  es  una  función  escalonada  que  a cada  valor  de 
X¡  le  asigna  la  frecuencia  acumulada  Fa¡.  Sobre  el  eje  de  abscisas  se  marcan  los  valores  de 
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variable  y sobre  el  eje  de  ordenadas  las  frecuencias  acumuladas.  El  gráfico  para  los  datos  del 
Ejemplo  4 se  muestra  a continuación. 
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Gráfico  2:  Distribución  de  los  novillos  de  acuerdo  al  peso 


b)  Para  Tablas  de  Frecuencias  Agrupadas 
1.  Histograma 

En  este  gráfico  se  representan  los  intervalos  de  clase  sobre  el  eje  de  abscisas  y sobre 
cada  uno  de  ellos  se  levanta  un  rectángulo  con  ancho  fijo  y altura  Igual  a la  frecuencia 
absoluta  f¡  de  ese  intervalo  (o  equivalentemente  fn).  A continuación  se  muestra  el  histograma 
correspondiente  a los  datos  del  Ejemplo  5.  Observar  que  este  gráfico  se  construye  en  base  a la 
Tabla  2. 


490  515  540  565  590  615 

PESO 

Gráfico  3:  Distribución  de  los  novillos  de  acuerdo  al  peso 


Este  gráfico  no  se  puede  utilizar  cuando  los  Intervalos  son  de  longitudes  diferentes;  en 
estos  casos  se  debe  usar  un  Histograma  de  Áreas,  cuyos  detalles  no  serán  presentados  aquí. 

2.  Polígono  de  Frecuencias  Acumuladas 

Para  realizar  este  gráfico  previamente  se  debe  construir  la  tabla  de  frecuencias 
acumuladas  (Fa¡).  La  misma  resulta  asignando  al  límite  inferior  del  primer  intervalo  el  valor 
cero,  al  límite  superior  del  primer  intervalo  el  valor  fi,  al  límite  superior  del  segundo  Intervalo  el 
valor  fi+Í2  y así  sucesivamente,  es  decir  que  al  límite  superior  del  i-éslmo  intervalo  se  le  asigna 
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el  valor  fi+Í2+...+  fi  ■ En  la  Tabla  4 se  presentan  las  frecuencias  acumuladas  para  los  datos  del 
Ejemplo  5. 

El  polígono  de  frecuencias  acumuladas  se  obtiene  uniendo  los  puntos  (t¡,  Fa¡)  mediante 
segmentos  de  recta,  donde  ti  denota  el  límite  Inferior  del  primer  intervalo  y t¡  denota  el  límite 
superior  del  1-éslmo  intervalo  con  i=2,3,...,k. 


Tabla  4:  Número  de  animales  según  el  peso. 


x<x, 

Fai 

490 

0 

515 

4 

540 

9 

565 

13 

590 

15 

615 

20 

Esta  tabla  Indica  que,  por  ejemplo,  no  hay  ningún  animal  que  pese  menos  de  490  kg., 
que  hay  13  animales  que  pesan  menos  de  565  kg.. 

El  siguiente  gráfico  representa  las  frecuencias  acumuladas  para  una  tabla  de 
frecuencias  agrupadas. 
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Gráfico  4:  Distribución  de  los  novillos  de  acuerdo  al  peso 

La  diferencia  entre  los  dos  polígonos  de  frecuencias  acumuladas  (Gráficos  2 y 4)  es 
que,  cuando  la  tabla  de  frecuencias  es  no  agrupada  se  considera  como  si  entre  dos  valores 
consecutivos  de  la  variable  no  hubiera  ningún  valor  posible,  lo  que  da  lugar  a un  gráfico  en 
forma  de  escalera;  mientras  que  cuando  los  datos  son  resumidos  en  una  tabla  de  frecuencias 
agrupadas  se  asume  que  la  variable  puede  tomar  cualquier  valor  entre  los  extremos  de  cada 
intervalo,  por  lo  cual  el  gráfico  correspondiente  resulta  una  poligonal. 

Notar  que  cuando  la  variable  en  estudio  es  de  tipo  cualitativo  sólo  tiene  sentido  el 
diagrama  de  barras. 


HK— 1 — ■ — ■ — ■ — • — “ — ■ — ' — ■ — ■ — ■ — ■ — ■ — — — ■ — ■ — ■ — ■ — ■ — “ — - 

490  515  540  565  590  615 

PESO 


c)  Diagrama  de  Tallo  y Hojas 

Un  procedimiento  seml-gráflco  de  presentar  la  información  para  variables  cuantitativas, 
que  es  especialmente  útil  cuando  el  número  total  de  datos  es  pequeño  (menor  que  50),  es  el 
diagrama  de  tallo  y hojas  de  Tukey.  Los  principios  para  construirlo  son: 
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a)  Redondear  los  datos  a dos  o tres  cifras  significativas,  expresándolos  en  unidades 
convenientes. 

b)  Construir  una  tabla  con  dos  columnas  (separadas  por  una  línea)  como  sigue: 

b-i  ) Para  datos  con  dos  dígitos,  escribir  a la  izquierda  de  la  línea  los  dígitos  de  las 
decenas,  que  forman  el  tallo,  y a la  derecha  las  unidades,  que  serán  hojas. 
b2  ) Para  los  datos  con  tres  dígitos  el  tallo  estará  formado  por  los  dígitos  de  las 

centenas  y decenas,  que  se  escribirán  a la  Izquierda  y a la  derecha  de  la  línea 

van  las  unidades. 

c)  Cada  tallo  define  una  clase  y se  escribe  sólo  una  vez.  El  número  de  hojas 
representa  la  frecuencia  de  dicha  clase. 

Ejemplo  7:  Los  datos  que  se  presentan  a continuación  corresponden  a la  altura  en  cm.  de 
cierto  arbusto. 

11.357  12.542  11.384  12.431  14.212  15.213  13.300  11.300  17.206  12.710 

13.455  16.143  12.162  12.721  13.420  14.698  11.312  11.217  11.414  11.142 

Se  realiza  un  cambio  de  escala  (de  cm.  a mm.)  y luego  se  redondea  a tres  cifras  significativas, 
lo  cual  genera  la  siguiente  muestra  estadística: 

114  125  114  124  142  152  133  113  172  127 

135  161  122  127  134  147  113  112  114  111 

El  Diagrama  de  Tallo  y Hojas  correspondiente  es 
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Gráfico  5:  Distribución  de  los  arbustos  según  su  altura. 

SI  bien  hay  diferentes  formas  de  construir  un  diagrama  de  tallo  y hojas,  el  aquí 
presentado  es  el  más  simple. 


d)  Gráfico  Circular  o Diagrama  de  Torta 

Se  construye  mediante  la  división  proporcional  de  un  círculo,  de  cualquier  radio,  en 
sectores  circulares  para  cada  clase  de  acuerdo  al  porcentaje  que  cada  magnitud  representa  del 
total. 

EL  VALOR  DE  LA  TIERRA  A TRAVÉS  DE 
LOS  AÑOS  EN  LA  ARGENTINA 

Invernada 

26% 


Agrícolas 

74% 

Fuente:  Bullrich  Campos  S.A.  (extraído  del  diario  La  Nación  - 20/6/96) 
Gráfico  6:  Valor  de  la  tierra  de  acuerdo  a su  uso  en  el  año  1996. 


22- 


Introducción  a la  Estadística  para  las  Ciencias  de  la  Vida 


1.4  Análisis  Descriptivo  Multivariado 

Hasta  ahora  se  han  estudiado  algunas  herramientas  de  la  estadística  descriptiva  para 
cuando  se  desea  analizar  sólo  una  variable,  lo  que  es  denominado  estudio  univarlado.  Cuando 
se  desea  estudiar  el  comportamiento  de  más  de  una  variable  simultáneamente,  el  análisis 
estadístico  recibe  el  nombre  de  análisis  multivariado.  Lo  más  común  es  que  se  estudien 
conjuntamente  dos  variables  lo  que  es  llamado  un  análisis  bivariado. 


1.4.1  Análisis  bivariado  para  variables  cuantitativas 
Diagrama  de  dispersión 

Para  observar  si  dos  variables  de  tipo  cuantitativas  (principalmente  continuas)  pueden 
estar  relacionadas  se  realiza  un  Diagrama  de  Dispersión.  Para  ejemplificar  este  tipo  de  gráfico 
será  presentado  la  siguiente  situación. 

Problema  1.5:  Suponga  que  un  grupo  de  investigadores  sospecha  que  hay  asociación  entre  el 
peso  y el  volumen  sanguíneo  de  cabras  de  una  cierta  raza.  Para  confirmar  su  sospecha  tomó 
aleatoriamente  12  cabras  de  la  raza  en  estudio,  de  cierto  peso  y edad  (unidad  experimental), 
midiéndole  a cada  una  de  ellas  las  dos  variables  simultáneamente.  Los  datos  obtenidos  se 
muestran  a continuación: 


X:  Peso  (kg.) 

34  28 

19 

41  21  20  21  39  37 

23 

17 

48 

Y:  Volumen  (cm3) 

2.3  2.1 

1.1 

2.8  1.5  1.6  1.4  2.4  2.5 

1.5 

1.1 

3.5 

El  Diagrama  de  Dispersión  muestra  la  ubicación  de  los  pares  de  observaciones  (X,Y) 
en  un  sistema  de  coordenadas  cartesianas,  como  se  puede  observar  en  el  gráfico  siguiente. 


Dado  que  los  puntos  se  aproximan  a una  recta  de  pendiente  distinta  de  cero,  el  gráfico 
sugiere  que  las  variables  peso  y volumen  sanguíneo  están  relacionadas  linealmente.  Como  la 
recta  tiene  pendiente  positiva  (a  mayor  peso  corresponde  mayor  volumen  sanguíneo)  se  puede 
pensar  que  existe  una  asociación  lineal  positiva  entre  el  peso  y el  volumen  sanguíneo. 

En  general,  dos  variables  de  tipo  cuantitativo  pueden  tener: 

Asociación  Lineal  Positiva',  si  a medida  que  aumentan  los  valores  de  la  variable  X también 
aumentan  los  valores  de  la  variable  Y (Gráfico  8-a). 
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Asociación  Lineal  Negativa:  si  a medida  que  aumentan  los  valores  de  la  variable  X disminuyen 
los  valores  de  la  variable  Y (Gráfico  8-b). 

Ausencia  de  Asociación  Lineal:  cuando  los  puntos  se  dispersan  en  el  plano  o están  distribuidos 
alrededor  de  alguna  otra  curva.  (Gráfico  8-c  y d). 


a)  b) 


Gráfico  8:  Diagramas  de  dispersión,  a)  Asociación  Lineal  Positiva; 

b)  Asociación  Lineal  Negativa; 

c)  y d)  Ausencia  de  Asociación  Lineal. 


1.4.2  Análisis  bivariado  para  variables  cualitativas 
Tablas  de  contingencia  o de  doble  entrada. 

Para  estudiar  problemas  de  asociación  entre  dos  variables  aleatorias  cualitativas  y para 
resumir  la  información,  se  construyen  en  primer  lugar  las  llamadas  tablas  de  contingencia  o de 
doble  entrada.  Para  ejemplificar  este  tipo  de  tablas  será  presentada  la  siguiente  situación. 

Problema  1.6:  Un  investigador  interesado  en  estudiar  tumores  cutáneos  en  equinos,  tomó  una 
muestra  aleatoria  de  1000  equinos  y observó  la  presencia  de  dichos  tumores  y el  color  del 
pelaje.  En  la  Tabla  5 se  resume  la  información  obtenida. 

Una  tabla  de  contingencia  se  construye  con  las  frecuencias  correspondientes  al 
combinar  las  categorías  de  las  variables  en  estudio. 
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Tabla  5:  Distribución  de  frecuencias  según  el  color  y presencia  del  tumor. 


PRESENCIA  DE  TUMOR 
COLOR 

Si 

No 

TOTAL 

Alazán 

220 

80 

300 

Zaino 

135 

115 

250 

Tordillo 

415 

35 

450 

TOTAL 

770 

230 

1000 

La  frecuencia  de  animales  zainos  con  tumor  es  fzs  = 1351.  Ésta  indica  que  de  los  1000 
estudiados  135  son  de  color  zaino  y tienen  tumores  cutáneos. 

El  gráfico  más  adecuado  asociado  a esta  tabla  es  el  Diagrama  de  barras  múltiples  que 
se  presenta  en  la  sección  siguiente. 


1.4.3  Otros  gráficos 
1.  Diagrama  de  barras  múltiples 

Este  gráfico  se  construye  mediante  la  ubicación  de  dos  o más  rectángulos  (barras), 
para  cada  valor  de  la  variable  representado  en  el  eje  de  abscisas.  La  altura  de  cada  barra  varía 
según  sea  la  magnitud  a representar  en  el  eje  de  ordenadas  que  no  es  necesariamente  la 
frecuencia  (como  en  el  diagrama  de  barras  e histograma  presentados).  En  el  caso  de  una  tabla 
de  contingencia  la  magnitud  del  eje  de  ordenadas  es  la  frecuencia.  Notar  que  en  el  eje  x se 
puede  representar  más  de  una  variable. 

Algunas  veces  las  barras  se  ubican  en  forma  horizontal,  cambiando  adecuadamente  lo 
que  se  representa  en  cada  eje. 

EL  VALOR  DE  LA  TIERRA  A TRAVÉS  DE  LOS  AÑOS 
EN  LA  ARGENTINA 
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Fuente:  Bullrich  Campos  S.A.  (extraído  del  diario  La  Nación  - 20/6/96) 
Gráfico  9:  Valor  de  la  tierra  de  acuerdo  a su  uso  a través  de  los  años 


Para  la  Tabla  5 el  Diagrama  de  barras  múltiples  es 


1 Esta  frecuencia  puede  denotarse  f21,  donde  el  subíndice  2 indica  la  fila  (Zaino)  y el  subíndice  1 indica  la  columna 
(Si). 
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DISTRIBUCIÓN  DE  EQUINOS  SEGÚN  COLOR  DE  PELAJE 


ALAZAN 

□ SI  DNO 


ZAINO  TORDILLO 

COLOR 


Gráfico  10:  Distribución  de  frecuencias  según  el  color  y 
presencia  del  tumor. 


2.  Diagrama  de  barras  componentes 

Este  gráfico  está  formado  por  barras  superpuestas  en  vez  de  contiguas  para  cada 
valor  de  variable.  Como  en  el  tipo  de  gráfico  anterior,  la  magnitud  del  eje  de  ordenadas  no  es 
necesariamente  una  frecuencia,  y cuando  se  trata  de  una  tabla  de  contingencia  sí  lo  es. 

Como  en  el  caso  anterior,  algunas  veces  las  barras  se  ubican  en  forma  horizontal, 
cambiando  adecuadamente  lo  que  se  representa  en  cada  eje. 


EL  VALOR  DE  LA  TIERRA  A TRAVÉS  DE  LOS  AÑOS 
EN  LA  ARGENTINA 
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Fuente:  Bullrich-  Campos  S.A.  (extraído  del  diario  La  Nación  - 20/6/96) 


Gráfico  1 1 : Valor  de  la  tierra  de  acuerdo  a su  uso  a través  de  los  años 


3.  Diagrama  de  Líneas  Múltiples 

Consiste  en  reemplazar  las  barras  por  puntos  que  se  unen  con  una  línea,  como  puede 
observarse  en  el  Gráfico  12.  Como  antes,  la  magnitud  del  eje  de  ordenadas  no  es 
necesariamente  una  frecuencia. 
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EL  VALOR  DE  LA  TIERRA  A TRAVÉS  DE 
LOS  AÑOS  EN  LA  ARGENTINA 


AÑO 


—•—Agrícolas  — * — Invernada 

Fuente:  Bullrich  Campos  S.A.  (extraído  del  diario  La  Nación  - 20/6/96) 

Gráfico  12:  Valor  de  la  tierra  de  acuerdo  a su  uso  a 
través  de  los  años. 

Resolver  e interpretar  los  resultados,  de  los  ejercicios  de  aplicación  propuestos  a 
continuación  y al  final  de  cada  uno  de  los  capítulos  siguientes,  permitirá  apreciar  cuanto 
pueden  ayudar  las  técnicas  estadísticas  en  la  resolución  de  un  problema  planteado  desde  una 
área  aplicada. 


Ejercicios  de  Aplicación 

i. 

Para  cada  uno  de  los  siguientes  ejemplos  Indicar  la  Unidad  Experimental,  la  Muestra 

de  Unidades  y la  Población  de  Unidades. 

a)  Se  desea  determinar  el  rendimiento  de  una  nueva  variedad  de  trigo  en  una  zona  del 
sur  de  la  Provincia  de  Santa  Fe.  Para  ello  se  seleccionaron  30  parcelas  a las  que  se 
les  midió  el  rendimiento  en  tn/ha. 

b)  Para  determinar  el  peso  de  los  huevos  de  ponedoras  Leghorn  blanca  de  una  línea 
se  consideraron  16  huevos  de  tales  aves  y se  midió  el  peso  de  los  mismos. 

c)  Los  lechones  suelen  ser  alimentados  en  recintos  separados  de  los  que  comen  las 
cerdas  para  evitar  que  se  molesten.  Para  estudiar  el  aumento  de  peso  de  lechones 
alimentados  de  esa  manera,  se  seleccionaron  20  de  ellos  y se  les  midió  dicha 
variable. 

d)  Para  realizar  un  estudio  acerca  de  la  presencia  de  ciertos  parásitos  se  realizó  un 
análisis  coproparasltológlco  a 36  niños  entre  0 y 13  años  de  edad,  aplicándoles 
cierta  técnica  de  detección  de  parásitos  y registrando  la  presencia  o ausencia  de  los 
mismos. 

e)  A fin  de  estimar  el  número  de  lechones  por  año  en  cerdas  Yorkshire  Holandés  se 
escogió  una  muestra  de  20  cerdas  de  dicha  raza  y se  contó  el  número  de  lechones 
por  cerda. 

f)  Se  quiere  estimar  la  composición  botánica  en  la  dieta  anual  de  la  vicuña  en  libre 
pastoreo  en  la  Puna  Jujeña.  Se  trabajó  con  25  animales,  recolectando  de  cada  uno 
1 muestra  de  100  gramos  de  sus  heces.  En  cada  una  de  las  muestras  de  heces  se 
midió  el  porcentaje  de  Festuca  Sclrpifolia  y de  Deyeuxla  Nardifolia  (el  resto  de  la 
composición  de  la  dieta  se  clasificó  en  Otros). 
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g)  Se  quiere  saber  si  cierto  componente  en  la  dieta  de  pollos  parrilleros  disminuye  la 
conversión  alimenticia,  la  cual  se  obtiene  haciendo  el  cociente  entre  el  alimento 
consumido  y la  ganancia  de  peso,  medidas  ambas  por  corral.  Para  ello  se  tomaron 
50  pollos  en  el  2°  día  de  vida,  se  dividieron  en  corrales  de  5 aves  cada  uno,  y al 
cabo  de  1.5  meses  de  suministrarle  la  dieta  con  el  nuevo  componente  se  efectuaron 
las  mediciones. 


En  las  situaciones  anteriores  determinar  las  variables  en  estudio,  el  tipo  al  cual 
corresponden,  la  Muestra  Estadística  y la  Población  Estadística. 


Los  caballos  de  la  raza  “sangre  pura  de  carrera”  de  la  Argentina  fueron  clasificados 
según  su  lugar  de  procedencia  (provincia),  arrojando  los  resultados  que  se  muestran 
en  la  tabla: 

a)  ¿Cuál  es  la  unidad  experimental  en  este  estudio?. 

b)  ¿Los  datos  anteriores  corresponden  a una  población  o a una  muestra  de  unidades?. 

c)  ¿Cuál  es  la  variable  estudiada?. 

d)  Graficar  la  información  presentada  en  la  tabla. 


Santa  Fe 

130 

Buenos  Aires 

800 

Corrientes 

8 

Chubut 

8 

Santa  Cruz 

1 

Entre  Ríos 

102 

La  Pampa 

50  | 

Mendoza 

9 

San  Luis 

13 

Santiago  del  Estero 

11 

Río  Negro 

5 

San  Juan 

8 

Tucumán 

3 

Córdoba 

170 

Chaco 

4 

4. 


Suponga  que  los  datos  correspondientes  al  inciso  e)  del  Ejercicio  1 son  los  siguientes: 


10 

3 

12 

4 

14 

7 

15 

4 

16 

2 ! 

a)  Completar  la  tabla  con  los  tipos  de  frecuencias  faltantes. 

b)  Realizar  los  gráficos  correspondientes. 

c)  ¿Cuál  es  el  significado  de  la  segunda  frecuencia  absoluta  ( f 2 )?. 
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5. 

I)  Sobre  la  composición  botánica  de  la  dieta  de  la  vicuña,  se  obtuvieron  los  siguientes 
datos  respecto  de  la  Festuca  (Festuca  Scirpifolia)  en  % (inciso  f)  del  Ejercicio  1 : 


35 

43 

52 

43 

54 

78 

65 

64 

76 

62 

63 

53 

53.5 

57 

55.7 

61.2 

70.3 

68.6 

68 

51 

50.5 

50.5 

53 

66.5 

72 

Resumir  este  conjunto  de  valores  a través  de  tablas  y gráficos. 

II)  Los  datos  referidos  a la  Deyeuxia  (Deyeuxia  Nardifolia)  se  presentan  en  la  siguiente 
tabla: 


a)  ¿Qué  cantidad  de  muestras  de  heces  presentaron  un  porcentaje  de  Deyeuxia  entre 
27%  y 34%  ?. 

b)  ¿Qué  cantidad  de  muestras  de  heces  presentaron  un  porcentaje  de  Deyeuxia 
inferior  al  41  %?. 

c)  Realizar,  a partir  de  la  tabla  anterior,  el  histograma  y el  polígono  de  frecuencias 
acumuladas. 

6. 

En  base  a los  siguientes  gráficos: 

Distribución  del  Area  Sembrada  en  el  el  período  86-87 


Girasol 

25% 
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Distribución  del  área  sembrada 


PERÍODO 


□Trigo  aMaíz  BGirasol 


a)  ¿ Cuál  es  la  tendencia  del  área  sembrada  de  girasol  y qué  diferencia  tiene  con  la  de 
los  otros  cultivos?. 


b)  ¿Cómo  son  las  proporciones  de  áreas  sembradas  en  relación  al  área  total,  en  el 
último  período  considerado?. 

c)  SI  tuviera  que  comparar  las  proporciones  de  las  áreas  sembradas  de  los  cultivos  en 
el  período  83-84  ¿Qué  gráfico  utilizaría  ?. 

d)  ¿Qué  gráfico  elegiría  si  tuviera  que  comparar  proporciones  de  cada  uno  de  los 

cultivos  en  distintos  períodos  ?. 


La  furazolidona,  qulmloteráplco  usado  en  explotaciones  aviares,  produce  efectos 
tóxicos  en  numerosos  órganos.  También  se  ha  observado  descenso  en  la  ganancia  de 
peso  y consumo  de  alimento.  En  un  trabajo  de  un  grupo  de  investigadores  de  la 
Universidad  Nacional  de  Río  Cuarto  se  ha  estudiado  el  efecto  de  la  furazolidona  sobre 
la  ganancia  de  peso  en  pavos  híbridos.  Para  ello  se  tomó  una  muestra  de  pavos 
machos  de  5 semanas  de  vida.  A partir  de  este  momento  las  aves  fueron  divididas  en 
dos  grupos:  durante  12  semanas  a un  grupo  (tratado)  se  le  dio  un  alimento  comercial 
con  agregado  de  furazolidona  (al  0,04%)  y al  otro  (control)  el  alimento  sin  el  agregado. 
Al  cabo  de  la  12°  semana  se  efectuaron  las  mediciones. 

a)  En  esta  experiencia:  ¿Cuál  es  la  unidad  experimental,  la  muestra  de  unidades  y la 
población  de  unidades?.  ¿Cuál  la  variable,  la  muestra  estadística  y la  población 
estadística?. 

A partir  de  la  información  dada  en  el  gráfico: 

I.  ¿Cuáles  son  las  mínimas  y máximas  ganancias  de  peso  consideradas? 
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II.  ¿Qué  ocurre  cuando  en  el  gráfico  se  presentan  pendientes  muy  pronunciadas  o muy 
bajas?. 

III.  ¿Qué  cantidad  de  pavos  tratados  y controles  tienen  una  ganancia  de  peso  inferior  a 
los  8.3  kg.?.  ¿Cuántos  tratados  y controles  tienen  una  ganancia  de  peso  superior  a 8.3 
kg.?. 

b)  De  la  comparación  de  ambos  polígonos,  ¿surge  algún  indicio  acerca  de  si  la 
furazolidona  influye  o no  sobre  la  ganancia  de  peso  ? 

Ganancia  de  peso  según  dieta 
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Objetivos: 

♦ Sintetizar  la  información  de  la  muestra  a través  de  valores  representativos. 

♦ Reconocer  la  insuficiencia  de  los  estadísticos  de  posición  como  únicas  medidas  descriptivas 
de  una  muestra. 

♦ Seleccionar  los  estadísticos  que  mejor  describen  una  muestra. 

♦ Interpretar  la  información  brindada  por  los  estadísticos  para  una  situación  particular. 


2.1  introducción 

Hasta  ahora  se  ha  logrado  resumir  la  información  muestral  a través  de  tablas  y gráficos. 
A continuación  se  verá  otra  manera  de  caracterizar  una  muestra,  presentando  algunos 
ejemplos. 

Ejemplo  1:  Retomando  la  situación  presentada  en  el  Problema  1.1,  suponga  que  a 7 animales 
de  un  determinado  peso  inicial  de  la  raza  Charoláis  elegidos  al  azar  se  les  aplica  la  nueva  dieta. 
El  peso  obtenido  por  cada  uno  de  ellos  es 

muestra0  : 200  300  300  400  500  500  600 

¿Qué  número  se  puede  calcular  para  tener  una  idea  general  del  efecto  de  la  nueva 
dieta?,  es  decir  ¿con  qué  valor  numérico  se  podrá  caracterizar  esta  muestra  de  peso  de 
animales  sometidos  a la  nueva  dieta?.  Parece  natural  tomar  el  promedio,  el  cual  se  calcula  de 
la  siguiente  manera 


200  + 300  + 300  + 400  + 500  + 500  + 600 

X : promedio  = = 400 

7 

Ejemplo  2:  Se  toman  tres  muestras  de  7 animales  cada  una  de  la  raza  Charoláis  y se  les  aplica 
la  nueva  dieta,  obteniéndose  los  siguientes  pesos. 

muestra! : 400  450  500  550  600  680  700  X=  554.29  kg. 

muestra2 : 200  200  200  200  240  270  700  X = 287.14  kg. 

muestra3 : 180  190  210  230  250  280  700  X = 291.43  kg. 

Observar  si  el  promedio  (también  llamado  media)  es  realmente  representativo  en  cada 

una  de  las  muestras,  es  decir  si  da  una  idea  real  de  lo  que  sucede: 

En  la  primera  de  ellas  sí,  pero  en  las  otras  dos  no.  En  la  muestra!  hay  4 animales 
cuyos  pesos  son  menores  554.29  kg.  y 3 con  peso  mayor,  en  cambio  en  la  muestra2  hay  6 
animales  con  peso  menor  al  promedio  y 1 con  peso  mayor,  lo  mismo  que  en  la  muestra3. 
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En  la  muestra2  el  promedio  no  es  un  buen  representante,  por  lo  que  se  buscará  otro 
valor.  El  peso  200  kg.  es  el  que  más  se  repite  (en  este  caso  se  repite  4 veces  entre  7 valores 
que  tiene  la  muestra),  luego  se  puede  pensar  que  éste  es  un  buen  representante  de  esa 
muestra. 

En  la  muestra3  tampoco  el  promedio  es  un  buen  representante,  y no  hay  ningún  valor 
que  se  repita,  por  lo  que  se  determinará  otro  valor  que  resuma  esa  muestra.  El  valor  de  peso 
230  kg.,  que  separa  a la  muestra  ordenada  en  dos  partes  ¡guales  (es  decir  que  hay  3 valores  de 
la  muestra  menores  a 230  kg.  y 3 mayores)  puede  elegirse  como  tal. 

La  muestrai  puede  ser  caracterizada  por  el  promedio,  en  tanto  que  la  muestra2  y la 
muestra3  pueden  serlo  por  el  valor  de  variable  que  más  se  repite  y el  valor  de  variable  que 
divide  a la  muestra  en  dos  partes  iguales,  respectivamente.  Los  valores  descrlptos  son 
ejemplos  de  Estadísticos. 

Definición  1:  Los  Estadísticos  son  funciones  de  algunas  o de  todas  las  observaciones 
individuales  que  componen  la  muestra,  lo  que  se  puede  expresar  en  forma  simbólica  de  la 
siguiente  manera 

f:  (Xi,  X2,...,Xn)  i— > f(Xi,  X2,...,Xn) 


2.2  Estadísticos  de  Posición 


Los  valores  con  que  se  han  caracterizado  las  muestras  anteriores,  reciben  el  nombre 
de  estadísticos  de  posición  o medidas  de  tendencia  central. 

Definición  2:  Se  denominan  Estadísticos  de  Posición  a aquellos  valores  que  tienden  a ubicarse 
en  el  centro  de  la  muestra  ordenada. 

Estos  valores  proporcionan  una  ¡dea  de  los  datos  de  la  muestra  y alrededor  de  ellos 
tienden  a agruparse  todas  las  observaciones  de  la  misma. 

Algunos  de  los  estadísticos  de  posición  son: 

• Media  aritmética  o promedio:  es  la  suma  de  todos  los  valores  de  la  muestra  dividido  el 
tamaño  de  la  misma.  Se  lo  denota  con  X y la  fórmula  de  cálculo  es: 

1 " 

X=-  IX 

n ■ = i ‘ 


• Moda:  es  el  valor  de  variable  que  más  se  repite  y se  denota  con  m. 

• Mediana:  es  aquel  valor  que  verifica  que  la  mitad  de  los  datos  de  la  muestra  son  menores  o 
¡guales  a él  y la  otra  mitad  son  mayores  o ¡guales  a él.  Se  denota  por  M.  Para  calcularla  se 
debe  necesariamente  ordenar  la  muestra  y encontrar  el  valor  “central”  de  la  misma  como 
sigue  : 

1.  SI  n es  par 

, , Xn/2  + Xn/2  +1 
2 

es  decir  es  el  promedio  de  los  valores  ubicados  en  el  centro  de  la  muestra  ordenada. 

2.  SI  n es  Impar 
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M=X(n+i)/2 

es  decir  es  el  valor  ubicado  en  el  centro  de  la  muestra  ordenada. 

SI  bien  algunos  estadísticos  de  posición  no  necesariamente  asumen  valores  obtenidos 
en  la  muestra,  todos  ellos  deben  ser  valores  entre  el  mínimo  y el  máximo  de  la  muestra 
estadística. 

SI  se  dispone  de  los  datos  resumidos  en  una  tabla  de  frecuencias  no  agrupadas,  la 
media  puede  calcularse  como 

x = -if.x. 

n>=i  1 1 

Por  otra  parte,  algunas  veces  no  se  dispone  de  los  datos  reales  de  la  muestra  y sólo  se 
tiene  acceso  a la  tabla  de  frecuencias  agrupadas  de  los  mismos.  En  esos  casos  se  toma  como 
representante  del  intervalo  a la  marca  de  clase  del  intervalo  y en  ese  caso  la  fórmula  para 
determinar  la  media  es 

- 1 * ~ 

X = - If  X 

i i 

n i = i 

cuyo  valor  no  necesariamente  coincide  con  el  verdadero  valor  de  la  media. 


2.2.1  Interpretación 

Ejemplo  3:  Usando  los  datos  de  la  muestra2  del  Ejemplo  2,  resultan 

1)  X = 287.14  kg.  2)m  = 200  kg.  3)M  = 200  kg. 

lo  cual  dice  que 

1)  Los  pesos  de  los  7 animales  están  alrededor  de  287.14  kg. 

2)  El  peso  que  más  se  repite  es  de  200  kg.  (no  necesariamente  esto  Implica  que  la  mayoría  de 
los  animales  pesen  200  kg.). 

3)  Hay  3 animales  que  pesan  200  kg.  o menos  y 3 animales  que  pesan  más  de  200  kg. 


2.2.2  Comparación  entre  los  estadísticos  de  posición 

Aunque  desde  un  punto  de  vista  puramente  descriptivo  las  tres  medidas  proporcionan 
información  complementarla,  sus  propiedades  son  muy  distintas:  la  media  utiliza  todos  los  datos 
y es,  por  tanto,  preferible  si  los  datos  son  homogéneos;  tiene  el  inconveniente  de  que  es  muy 
sensible  a observaciones  atíplcas  (un  error  en  los  datos  o un  valor  anormal  puede  modificarla 
notablemente).  Por  el  contrario,  la  mediana  utiliza  menos  información  que  la  media  (sólo  tiene 
en  cuenta  el  orden  de  los  datos  y no  su  magnitud)  pero,  en  contrapartida,  no  se  ve  alterada  si 
una  observación  o una  pequeña  parte  de  las  observaciones  son  valores  atípleos.  En  tanto  que 
la  moda  es  el  valor  descriptivo  más  débil,  ya  que  en  algunos  casos  puede  no  existir  o puede  no 
ser  única;  es  útil  cuando  la  variable  es  de  tipo  cualitativo  ya  que  es  el  único  estadístico  de 
posición  que  puede  calcularse. 
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En  general  es  recomendable  calcular  la  media  y la  mediana  ya  que  si  hay 
heterogeneidad  en  los  datos  ambas  medidas  difieren  notoriamente. 


2.3  Estadísticos  de  Dispersión 

Ejemplo  4:  Suponga  que  los  pesos  de  dos  muestras  de  7 novillos  de  raza  Charoláis  tratados 
con  la  nueva  dieta  son: 


muestra4:  400  400  400  400  400  400  400 
muestra5:  200  300  400  400  400  500  600 

SI  se  calculan  los  estadísticos  de  posición  para  cada  una  de  ellas,  se  ve  que  son  todos  ¡guales 
a 400  kg.,  específicamente 


X4  = X5  = 1114  = 1115  = M4  = M5  = 400 

A pesar  de  lo  anterior  si  se  observan  los  pesos  de  los  animales,  se  puede  decir  que  el 
efecto  de  la  nueva  dieta  no  fue  igual  en  las  dos  muestras,  lo  cual  indica  que  no  son  suficientes 
los  estadísticos  de  posición  para  describir  una  muestra. 

Lo  que  se  desea  es  medir  la  diferencia  que  se  visualiza  entre  las  dos  muestras,  que  en 
realidad  proviene  de  la  variabilidad  de  las  mismas.  Para  esto  se  calcula  la  diferencia  entre  el 
valor  máximo  de  la  muestra  (denotado  por  Xmax)  y el  valor  mínimo  (denotado  por  Xm¡n)  , es 
decir  Xmax-Xmin  , cuyo  valor  para  cada  muestra  es: 

400  kg.  - 400  kg.  = 0 kg.  600  kg.  - 200  kg.  = 400  kg. 

Estos  valores  indican  que  en  la  primera  muestra  todos  los  datos  son  iguales,  mientras 
que  en  la  segunda  no  lo  son,  y ahí  sí  se  puede  observar  el  efecto  diferente  de  la  nueva  dieta  en 
los  novillos  de  las  dos  muestras.  En  la  primera  muestra  (donde  todos  los  valores  son  ¡guales)  la 
diferencia  es  cero,  en  tanto  que,  en  la  segunda  muestra  (donde  no  todos  los  valores  son 
¡guales)  el  valor  de  la  diferencia  es  distinto  de  cero  (positivo).  Se  definirán  valores  que  tengan 
precisamente  esas  características: 

* que  resulten  0 cuando  todos  los  datos  son  ¡guales; 

* que  sean  positivos  cuando  hay  al  menos  uno  diferente. 

Definición  3:  Se  denominan  Estadísticos  de  Dispersión  a aquellos  valores  que  miden  la 
variabilidad  de  una  muestra. 

Los  estadísticos  de  dispersión  más  utilizados  son: 

* Amplitud  o Rango:  Es  la  diferencia  entre  el  valor  máximo  y el  valor  mínimo  observado  en  la 
muestra.  Se  lo  denota  con  w.  En  fórmula  se  expresa 

w — Xmax  - Xm¡n 

Este  estadístico  no  utiliza  toda  la  información  de  la  muestra  (sólo  sus  extremos),  por 
ello  se  proponen  otras  medidas  de  dispersión  que  sí  la  tienen  en  cuenta.  Una  de  ellas  surge  en 

considerando  la  diferencia  de  las  observaciones  con  respecto  a la  media  muestral:  |x¡  -xj. 

Sin  embargo,  como  ésta  es  una  medida  para  cada  observación  y se  quiere  estudiar  la 
variabilidad  de  todos  los  valores  de  la  muestra,  se  deberían  sumar  todas  estas  diferencias  (en 

símbolos,  ¿ÍX,  — xj ).  Se  puede  comprobar  que  esta  suma  es  siempre  cero  cualesquiera 
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sean  los  datos  de  la  muestra,  motivo  por  el  cual  no  puede  ser  una  medida  de  variabilidad. 
Entonces  basados  en  esta  ¡dea  se  define  el  siguiente  estadístico  de  dispersión: 


Varianza:  Es  un  valor  que  mide  cuanto  se  desvían  en  promedio  los  datos  de  la  media 

2 

muestral.  Se  lo  denota  con  S~  y en  notación  matemática  se  lo  expresa  así 


S2  = 


1Z1X-  -X 
n-  1 


2 

Observe  que  S~  vale  cero  cuando  los  datos  son  todos  ¡guales  y es  mayor  que  cero 
cuando  al  menos  uno  es  diferente,  con  lo  que  se  logra  lo  que  se  espera  de  una  medida  de 
variabilidad,  utilizando  además  todos  los  valores  de  la  muestra. 


Dado  que  este  estadístico  tiene  las  unidades  de  los  datos  elevadas  al  cuadrado,  se 
define  otro  estadístico  que  tiene  la  misma  magnitud  que  los  datos. 


SI  se  dispone  de  los  datos  resumidos  en  una  tabla  de  frecuencias  no  agrupadas,  la 
varianza  puede  calcularse  como 


S2  = 


j k 

^iSr* 


x.-x)2 


Por  otra  parte,  si  sólo  se  tiene  acceso  a la  tabla  de  frecuencias  agrupadas  de  los  datos 
la  varianza  (usando  la  marca  de  clase)  se  calcula  como 

1 -t,  /~  \ 2 

s2  = Xf.  X.  -X 

n- 1 í = i ' 1 ' 


• Desviación  Estándar:  Este  estadístico  mide,  al  Igual  que  la  varianza,  cuanto  se  desvían  en 
promedio  los  datos  de  la  media  muestral,  pero  con  la  misma  magnitud  que  los  datos.  Se  lo 
expresa  de  la  siguiente  manera: 

S = EyfS7 

• Coeficiente  de  Variación:  Es  el  estadístico  de  dispersión  que  mide  la  variabilidad  de  la 
muestra  independientemente  de  la  magnitud  de  la  media,  o sea  determina  la  variabilidad  en 
unidades  de  la  media.  Se  lo  denota  con  CV  y se  lo  calcula  como 

CV  = ¿.100 
X 

El  coeficiente  de  variación  es  un  número  sin  unidades  de  medida,  generalmente 
expresado  en  porcentaje.  Esta  ausencia  de  unidades  es  de  gran  utilidad  cuando  se  desea 
comparar  la  variabilidad  de  dos  o más  muestras. 


2.3.1  Interpretación 

Retomando  el  Ejemplo  4 se  puede  observar,  a simple  vista  que,  para  la  primera 
muestra  tanto  S2  como  S4  son  cero,  en  tanto  que  para  la  segunda  muestra  ambos  valores 
resultan  mayores  a cero: 
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g2  _ (200 -400)2  + (300  - 400)2  + 3.(400 -400)2  + (500  - 400)2  +(ó00-400)  - ^6666  ^ 2 
5 6 g 

y S5=  129.10  kg. 

La  interpretación  de  los  valores  numéricos  de  los  estadísticos  obtenidos  en  la  muestra5 
de  novillos  de  la  raza  Charoláis  a los  que  se  les  suministró  la  nueva  dieta  es: 

• w = 400  kg.  significa  que  la  diferencia  entre  los  pesos  del  animal  más  pesado  y más  liviano 
es  400  kg. 

• S5  = 129.10  kg.  significa  que  los  pesos  de  los  1 animales  se  desvían  aproximadamente 
129.10  kg.  del  peso  promedio. 

• CV5  = 32.275  % significa  que  la  variabilidad  de  los  pesos  relativa  al  peso  promedio  es 
aproximadamente  del  32%. 

Para  comprender  cuan  útil  es  el  coeficiente  de  variación  se  da  el  siguiente 

Ejemplo  5:  Se  sospecha  que  el  peso  de  las  ratas  es  más  variable  que  el  peso  de  los  elefantes, 
para  lo  cual  se  determinó  el  peso  medio  y la  desviación  estándar  de  los  pesos  de  los  animales 
en  estudio,  los  cuales  resultaron: 

XE  = 10406.4  kg.  SE  =557.68  kg. 

XR  =0.46  kg.  SR  = 0.07  kg. 


SI  se  tiene  en  cuenta  el  valor  de  las  desviaciones  estándar  puede  parecer  que  los  pesos 
de  los  elefantes  varían  mucho  más  que  los  pesos  de  las  ratas.  Sin  embargo  al  calcular  el 
coeficiente  de  variación  para  cada  muestra  se  observa  que 

C VE  = 5 .36  % y CVR  = 1 5 .22  % 

lo  cual  indica  que  en  realidad  varía  más  el  peso  de  las  ratas  que  el  peso  de  los  elefantes,  es 
decir  que  la  muestra  con  los  datos  de  los  pesos  de  los  elefantes  es  más  uniforme  que  la  de  los 
pesos  de  las  ratas. 


2.3.2  Comparación  entre  los  estadísticos  de  dispersión 

El  rango  brinda  una  rápida  vlsuallzaclón  de  la  variabilidad  de  la  muestra,  aunque  sólo 
utiliza  los  valores  extremos  de  la  misma.  Por  su  parte  la  varianza  utiliza  toda  la  información  de 
la  muestra  pero  no  posee  las  unidades  de  medida  de  los  datos,  condición  que  sí  es  verificada 
por  la  desviación  estándar.  Sin  embargo,  si  el  interés  es  comparar  la  variabilidad  de  dos  o más 
muestras,  la  desviación  estándar  no  es  aconsejable  pues  su  valor  está  en  la  magnitud  de  los 
datos;  en  ese  caso  el  coeficiente  de  variación  es  el  apropiado. 


2.4  Diagrama  de  Caja 

SI  bien  la  media  y la  desviación  estándar  son  las  medidas  descriptivas  más  comunes, 
existen  otras  que  proporcionan  información  adicional  acerca  de  las  características  de  un 
conjunto  de  datos.  Por  ejemplo: 
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• Primer  Cuartil:  es  la  mediana  de  los  valores  inferiores  o ¡guales  a la  mediana  de  la  muestra 
original.  Este  valor  verifica  que  la  cuarta  parte  de  los  datos  de  la  muestra  son  menores  o 
¡guales  a él  y las  tres  cuartas  partes  de  los  datos  son  mayores  o ¡guales  a él.  Para  calcularlo 
se  debe  necesariamente  ordenar  la  muestra.  Se  denota  por  Q¡. 

• Segundo  Cuartil:  es  la  Mediana  y se  denota  por  Q2. 

• Tercer  Cuartil:  es  la  mediana  de  los  valores  superiores  o ¡guales  a la  mediana  de  la 
muestra  original.  En  este  caso  las  tres  cuartas  partes  de  los  datos  de  la  muestra  son 
menores  o ¡guales  a él  y la  cuarta  parte  de  los  datos  son  mayores  o ¡guales  a él.  También 
para  calcularlo  se  debe  necesariamente  ordenar  la  muestra  . Se  denota  por  Q3. 

A partir  de  estas  medidas  es  posible  construir  el  gráfico  de  caja,  el  cual  proporciona 
información  útil  para  un  análisis  descriptivo  integral  del  conjunto  de  datos  (Freund,  J.  y Manning 
Smith,  R.  1989).  La  forma  más  simple  de  construir  éste  es  a través  de  los  siguientes  5 valores 

1.  El  mínimo  2.  El  primer  cuartil 

3.  El  segundo  cuartil  4.  El  tercer  cuartil 

5.  El  máximo 

Para  los  datos  del  Ejemplo  1,  el  diagrama  de  caja  es 


* 


* 


* 


* 


Gráfico  1:  Distribución  de  los  novillos  según  el  peso 


2.5  Descripción  conjunta  de  dos  variables 

La  medida  de  asociación  lineal  más  simple  entre  n pares  de  observaciones  aleatorias 
(Xi,Yi),...,  (Xn,Yn)  es  la  covarlanza  definida  por: 

¿(Xí-XXYí-Y) 

Cov(X,  Y)  = M 

n-1 


El  inconveniente  de  la  covarlanza  como  medida  de  asociación  es  su  dependencia  de 
las  unidades  de  medida  de  las  variables.  Por  ejemplo,  la  covarianza  entre  la  altura  y el  peso  es 
200  (cuando  las  variables  se  miden  en  centímetros  y gramos  respectivamente)  mientras  que  la 
covarlanza  resulta  0.002  (cuando  se  expresa  la  altura  en  metros  y el  peso  en  kilogramos). 
Éstos  valores  tan  diferentes  llevarían  a pensar  que  las  observaciones  medidas  en  ciertas 
magnitudes  tienen  una  asociación  lineal  diferente  que  cuando  se  expresan  en  otras 
magnitudes,  lo  cual  es  Incorrecto.  Para  resolver  esta  dificultad  se  construye  una  medida 
adlmenslonal,  dividiendo  la  covarlanza  por  un  término  con  sus  mismas  dimensiones,  dando 
lugar  al  siguiente  estadístico: 
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• Coeficiente  de  Correlación:  mide  el  grado  de  asociación  lineal  entre  n valores  de  las 
variables  X e Y y se  define  por: 

CovÍX,y) 
r = — —Y — L 


donde  Sx  y Sy  son  las  desviaciones  estándares  de  las  variables  X e Y respectivamente.  Se 
puede  ver  que: 

1.  El  coeficiente  de  correlación  es  adimensional:  su  valor  no  varía  si  se  multiplica  cualquiera  de 
las  variables  por  una  constante  positiva. 

2.  Si  existe  relación  lineal  exacta  entre  las  variables  (todos  los  puntos  están  en  la  línea),  el 
coeficiente  de  correlación  es  igual  al  o -1. 

3.  Si  no  existe  relación  lineal  exacta  se  cumple  que  -1  < r < 1. 


Ejercicios  de  Aplicación 


Los  datos  de  la  tabla  corresponden  a dos  muestras  de  salarios  (en  $)  de  los  empleados 
en  dos  establecimientos  ganaderos: 

a)  Calcular  para  cada  muestra  los  estadísticos  de  posición  y compararlos. 

b)  Según  lo  obtenido  en  a),  ¿reflejan  los  estadísticos  de  posición  la  situación  salarial  de 
ambos  establecimientos?.  Justificar. 

c)  Calcular  los  estadísticos  que  crea  conveniente  para  reflejar  lo  observado  en  b). 

d)  Representar  gráficamente  las  muestras  estadísticas  y discutir  la  relación  entre  los 
valores  de  los  estadísticos  y la  forma  de  los  gráficos. 


200 

300 

200 

300 

200 

300 

300 

300 

300 

300 

300 

300 

300 

300  I 

900 

400  i 

2. 

a)  Dar  un  ejemplo  de: 

i)  una  muestra  de  tamaño  5,  con  media  5 y dispersión  nula; 

¡i)  dos  muestras  con  igual  media  y distinta  varlanza; 

iii)  una  muestra  de  7 datos  de  manera  que  el  estadístico  más  representativo  sea  la 
moda. 

b)  SI  en  una  granja  hay  pollos  cuyos  pesos  varían  entre  2.8  kg.  y 3.8  kg.: 

I)  ¿Puede  el  peso  medio  tomar  los  valores  2.1  kg.  ó 4.2  kg.  ?.  ¿Por  qué?. 

¡i)  ¿Es  posible  que  la  varlanza  sea  nula?. 
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En  cada  uno  de  los  siguientes  ejemplos  decidir  si  es  posible  que  los  estadísticos  tomen 

los  valores  que  se  informan: 

a)  En  5 vacunos  Ayrshire  se  encontró  que  el  mínimo  porcentaje  de  grasa  en  la  leche  fue 
del  4%,  el  promedio  fue  de  14%  y el  rango  de  14%. 

b)  Para  otro  grupo  de  5 vacunos  de  la  misma  raza  mencionada  en  el  punto  anterior,  se 
encontró  el  mismo  valor  mínimo  de  porcentaje  de  grasa,  pero  en  cambio  el  rango 
fue  de  10%  y el  valor  más  frecuente  fue  el  14%. 

c)  En  una  quinta  se  seleccionaron  8 repollos  y se  les  contó  el  número  de  larvas  de 
cierto  insecto  y además  se  determinó  su  peso.  Para  la  primera  variable  el  rango  fue 
de  6 larvas,  mientras  que  en  la  segunda  variable  el  rango  fue  de  0.5  kg..  Ambas 
muestras  estadísticas  carecieron  de  moda. 

d)  En  una  muestra  de  huevos  de  ponedoras  Leghorn  blanca  el  rango  de  pesos  fue  de  9 
gr. , con  un  valor  más  frecuente  de  peso  de  45  gr.  . El  huevo  más  pesado  presentó 
un  peso  de  45  gr.. 

e)  Siete  ponedoras  de  la  raza  mencionada  en  el  punto  anterior  fueron  seleccionadas 
para  ser  pesadas.  Los  valores  de  peso  encontrados  oscilaron  entre  1.4  kg.  y 2.4  kg.. 
El  peso  más  frecuente  es  1 .4  kg.. 


En  el  Ejercicio  6 del  Capítulo  1 se  presentaron  datos  sobre  la  distribución  del  área 
sembrada  entre  los  años  83  y 87.  ¿Para  que  cereal  hubo  mayor  variabilidad  de  la 
distribución  del  área  sembrada  ?. 


En  el  Ejercicio  4 del  Capítulo  1 se  presentaron  los  números  de  lechones  por  año  para 
cerdas  de  la  raza  Yorkshire  holandés.  Repitiendo  la  misma  experiencia  pero  para  30 
cerdas  de  la  raza  Landrase  belga,  se  obtuvo  el  siguiente  conjunto  de  datos: 


8 

7 

9 

9 ! 

10 

4 

11 

6 

12 

2 

13 

2 

a)  Calcular  los  estadísticos  que  crea  conveniente  para  mostrar  las  diferencias  en  el 
comportamiento  de  la  variable  “número  de  lechones  por  año”  para  ambos  grupos  de 
cerdas. 

b)  Realizar  diagramas  de  barra  para  comparar  el  comportamiento  de  ambas  muestras 
estadísticas. 

c)  En  base  a los  diagramas  de  cajas  para  los  dos  conjuntos  de  datos  presentados, 
discutir  lo  observado  en  los  gráficos  y relacionar  con  los  estadísticos  obtenidos  en  el 
inciso  a). 
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1 .H. 

15  n 


14  H 


12  H 


io  H 


8 H 


Diagramas  de  Caja  para  el  “número  de  lechones”  en  dos  razas  de  cerdas: 
Yorkshire  Holandés  y Landrase  Belga 


Se  seleccionaron  un  total  de  30  muestras  de  100  gramos  de  quesos  Sbrinz 
determinándose  el  contenido  de  vitamina  B6  (en  mcg.),  obteniéndose  la  siguiente 
muestra  estadística: 


93 

170 

92 

96 

84 

73 

96 

100 

97 

95 

80 

95 

95 

90 

120 

94 

97 

96 

98 

86 

78 

94 

96 

95 

97 

87 

76 

92 

98 

96 

Además  se  construyó  el  histograma  para  las  frecuencias  relativas  de  los  contenidos  de 
vitamina  B6  que  se  presenta  a continuación: 

Frec.  -6  “I  

Relativa 


■4H 


•2  H 


n 1 1 1 1 r~ 

73  92.4  111.a  131.2  150.6  170 

Vitamina  B6 

Histograma  para  las  frecuencias  relativas  de  los  contenidos 
de  vitamina  B6  en  muestras  de  queso  Sbrinz 

a)  Calcular  los  estadísticos  que  crea  conveniente  para  reflejar  el  comportamiento  de  los 
datos  mostrado  en  el  histograma. 

b)  A continuación  se  muestra  un  histograma  donde  se  graflcan  los  contenidos  de 
vitamina  B6  (en  mcg.)  para  25  muestras  de  Queso  Fundido.  ¿Qué  diferencias 
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substanciales  encuentra  entre  este  nuevo  gráfico  y el  histograma  para  las  muestras 
de  queso  Sbrlnz?.  Intuitivamente  ¿cómo  se  reflejaría  este  cambio  del 
comportamiento  de  los  contenidos  de  vitamina  B6  en  los  estadísticos  de  posición  y 
dispersión?. 


Histograma  para  las  frecuencias  relativas  de  los  contenidos 
de  vitamina  B6  en  muestras  de  queso  Fundido. 


A fin  de  comparar  los  pesos  de  los  huevos  de  tres  líneas  de  ponedoras  Leghorn  blanca, 
A,  B y C,  se  tomaron  5 huevos  de  cada  una  de  tales  líneas,  observándose  los 
siguientes  valores  (en  gr.): 


Línea  A 

46.6 

47.1 

48 

54.3 

45.7 

Línea  B 

45.3 

45.2 

46.1 

44.2 

43.2 

Línea  C 

54 

52.1 

53.6 

52.6 

56 

a)  ¿ Cuál  es  la  variable  en  estudio  y a qué  tipo  corresponde?. 

b)  Realizar  un  estudio  comparativo  entre  las  tres  muestras  estadísticas. 


Un  equipo  de  investigadores  intenta  establecer  alguna  relación  entre  el  consumo  de 
agua  y el  alimento  de  pollas  Leghorn  estándar  colocadas  en  jaulas.  Para  ello  se  midió 
durante  varios  días  el  consumo  diario  de  alimento  cada  100  pollas  (en  kilogramos)  y el 
consumo  diario  de  agua  cada  100  pollas  (en  libras).  Los  datos  siguientes  corresponden 
a la  muestra  estadística: 


Consumo  de  Alimento 

11.8 

11.6 

11 

10 

8.7 

7 

4.8 

Consumo  de  Agua 

33.9 

35.7 

38.6 

44 

55.4 

73.5 

89.2 

A partir  del  siguiente  resumen  de  los  principales  estadísticos  para  ambas  muestras 
realizar  un  informe,  que  usted  crea  conveniente,  del  comportamiento  de  los  datos: 


Media 

9.27 

52.9 

Mediana 

10 

44 

Varianza 

6.8 

448.14 

Mínimo 

4.8 

33.9 

Máximo 

11.8 

89.2 
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Objetivos: 

♦ Reconocer  los  ámbitos  de  aplicación  de  las  distintas  definiciones  de  la  probabilidad  en  distintos 
contextos. 

♦ Distinguir  entre  sucesos  excluyentes  y sucesos  independientes. 


3.1  Introducción 

Hasta  ahora,  sólo  se  han  planteado  problemas  tales  como:  un  investigador  intenta 

imponer 

* un  nuevo  fármaco; 

* una  nueva  dieta; 

* una  nueva  variedad. 

Para  resolver  estos  problemas  o para  tomar  una  decisión,  por  ejemplo  sobre  si  la  nueva 
dieta  es  mejor  que  la  utilizada,  se  ha  tomado  una  muestra  y se  ha  realizado  un  análisis  descriptivo 
de  la  misma  mediante  gráficos,  tablas  y/o  estadísticos.  Pero  también,  se  debe  tener  en  claro  que 
el  problema  está  planteado  con  fines  de  conocer  características  de  la  población,  las  cuales  pueden 
ser  cuantificadas  con  valores  típicos  que  reciben  el  nombre  de  características  numéricas  de  la 
variable  o de  la  población  estadística.  Sin  embargo,  se  debe  observar  también  que  es  imposible  o 
poco  práctico  (por  razones  de  tiempo  o de  costo)  a menos  que  la  población  en  estudio  sea 
pequeña,  inspeccionar  todas  las  unidades  experimentales  de  la  misma  por  lo  que  se  recurre  al 
estudio  de  una  muestra  extraída  de  esa  población. 

Definición  1:  Una  característica  descriptiva  global  de  una  población  estadística  se  llama 
característica  numérica  de  la  variable. 

Los  valores  típicos  de  la  población  estadística  pueden  ser  también  denominados 
parámetros,  pero  aquí  se  reservará  este  término  para  las  constantes  que  identifican  un  modelo 
probabilístico,  como  se  mostrará  en  los  Capítulos  4 y 5. 

Definición  2:  Una  característica  descriptiva  global  de  una  muestra  estadística  se  llama  estadístico. 

A continuación  se  muestran  los  estadísticos  y las  características  numéricas  más  utilizados 
para  describir  una  muestra  y una  población  respectivamente. 


MUESTRA 

(Estadísticos) 

POBLACIÓN 

(Características  Numéricas  de  la  Variable) 

X 

E(X) 

S2 

Var(X) 

s 

Des(X) 
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Raramente  se  utilizan  los  estadísticos  sólo  como  resumen  descriptivo,  se  usan  más  bien 
como  indicadores  de  alguna  característica  de  la  población  de  la  cual  fue  extraída  la  muestra.  Así 
los  valores  muéstrales  X y S son  de  escaso  interés  a menos  que  proporcionen  alguna 
información  acerca  del  Promedio  poblacional  y de  la  Varianza  poblacional. 

Las  características  numéricas  de  la  variable  en  estudio  mencionadas  son  generalmente 
desconocidas,  pues  su  valor  sólo  puede  obtenerse  examinando  a toda  la  población,  lo  cual  es 
prácticamente  Imposible.  Por  ello  es  que  se  trata  de  estimarlos  con  los  valores  muéstrales. 

Ahora  bien,  aunque  se  trate  de  tomar  la  "mejor  muestra",  es  decir,  la  más  representativa, 
nunca  se  podrán  obtener  las  características  poblaclonales  con  un  100%  de  seguridad,  por  no 
conocer  la  Información  de  toda  la  población. 

Estimar  características  de  una  población  a través  de  características  de  una  muestra,  recibe 
el  nombre  de  Inferencia  Estadística.  Ese  hecho  tiene  un  costo,  que  es  el  de  tener  conocimiento 
sobre  la  población  con  un  cierto  margen  de  error,  el  cual  es  medido  a través  de  una  probabilidad. 
Luego  se  puede  dividir  a la  estadística  en  dos  grandes  ramas  vinculadas  por  medio  de  la 
probabilidad  y modelos  probabilístlcos. 

- Estadística  Descriptiva  - Estadística  Inferencial 

No  siempre  la  finalidad  al  obtener  una  muestra  es  tratar  de  hacer  inferencia.  Hay 
situaciones  en  donde  sólo  Importa  describir  lo  que  está  ocurriendo  en  la  muestra  para  lo  que  se 
utilizan  las  herramientas  de  la  Estadística  Descriptiva,  tales  como  gráficos,  tablas  y estadísticos. 


3.2  Algunas  definiciones  básicas 


Se  verán  a continuación  ciertas  nociones  necesarias  para  estudiar  el  concepto  de 
probabilidad. 

• Los  fenómenos  determinísticos  son  aquellos  cuyos  resultados  se  pueden  predecir.  Algunos 
fenómenos  físicos  son  de  este  tipo,  por  ejemplo  si  se  arroja  una  roca  hacia  arriba  por  la  ley  de 
la  gravedad  va  a caer  y por  tanto  no  hay  nada  de  Incierto  en  el  resultado  de  este  experimento. 

• Los  fenómenos  aleatorios  son  aquellos  cuyos  resultados  no  se  pueden  predecir.  La  estadística 
está  basada  justamente  en  experimentos  de  este  tipo. 

Definición  3:  Un  experimento  aleatorio,  es  un  proceso  cuyo  resultado  no  se  puede  predecir.  Se  lo 
denota  con  E. 

También  se  puede  decir  que  los  experimentos  aleatorios  son  fenómenos  empíricos  que  se 
caracterizan  por  una  propiedad  fundamental  y propia:  su  observación  repetida  en  condiciones 
constantes,  no  produce  el  mismo  resultado  porque  no  existe  regularidad  determinístlca  sino 
regularidad  estadística  o aleatoria. 

Ejemplo  1: 

1.  Arrojar  una  moneda.  2.  Arrojar  un  dado 

3.  Suministrar  una  dieta.  4.  Sembrar  una  variedad. 
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Definición  4:  El  espacio  muestra!  de  un  experimento  aleatorio  es  el  conjunto  de  todos  los 
resultados  posibles  del  mismo.  Se  lo  denota  con  S. 

Ejemplo  2:  El  espacio  muestral  correspondiente  a cada  uno  de  los  experimentos  aleatorios 
indicados  en  los  puntos  1 y 2 del  Ejemplo  1 son 

1.S={C,  X}  2.  S=  {1,2,3,4,5,6} 

Sobre  un  experimento  aleatorio  se  pueden  definir  diferentes  sucesos  aleatorios: 

Definición  5:  Un  suceso  aleatorio  es  un  conjunto  formado  por  algunos  o todos  los  resultados 
posibles  de  un  experimento  aleatorio.  En  términos  de  conjunto  se  puede  decir  que  un  suceso  es 
un  subconjunto  del  espacio  muestral.  En  general  se  denotan  con  letras  mayúsculas  A,  B,  C. 

Definición  6:  Un  suceso  elemental  es  aquel  suceso  que  tiene  un  solo  resultado  posible  (conjunto 
con  un  solo  elemento). 

Definición  7:  El  suceso  imposible  es  el  que  no  ocurre  cuando  se  efectúa  el  experimento.  Se  lo 
denota  con  0. 

Definición  8:  El  suceso  seguro  es  el  que  ocurre  siempre.  Coincide  con  el  espacio  muestral. 
Ejemplo  3:  Sea  el  experimento  £!  “arrojar  una  moneda  dos  veces  ” 

• El  espacio  muestral  asociado  a él  es:  S=  {(C,C);  (C,X);  (X,C);  (X,X)} 

Sobre  este  experimento  se  definen  los  sucesos  aleatorios 

• A:  “se  obtiene  al  menos  una  cara”,  luego  por  extensión  A = {(C,C);  (X,C);  (C,X)} 

• B.  “se  obtienen  dos  caras”,  luego  ^={(C,C)} 

• C.  "se  obtienen  tres  caras”,  luego  C = {(C,C,C)}  y como  éste  no  es  un  subconjunto  de  S 
resulta  ser  un  suceso  Imposible. 


3.3  Relaciones  entre  sucesos 


Sean  A y i?dos  sucesos 


a)  El  suceso  suma  denotado  por  A+B , es  el  suceso  que  ocurre  si4o8o  ambos  ocurren.  Este 
suceso  puede  ser  visualizado  utilizando  los  diagramas  de  Venn,  como  se  muestra  a 
continuación,  para  las  dos  situaciones  que  se  pueden  presentar. 


Gráfico  1:  Suceso  suma 
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b)  El  suceso  producto,  denotado  por  A.B,  es  el  suceso  que  ocurre  si  A y B ocurren 
simultáneamente,  el  que  puede  ser  visualizado  utilizando  los  diagramas  de  Venn,  como  sigue 


Gráfico  2:  Suceso  producto 


c)  El  suceso  complemento  de  A,  denotado  por  Ac,  es  el  suceso  que  ocurre  cuando  el  suceso  A 
no  ocurre. 


Ejemplo  4:  Sea  el  experimento  B.  "arrojar  un  dado"  y S=  { 1,2, 3, 4, 5, 6 } 

Se  definen  sobre  el  experimento  los  siguiente  sucesos 

“sale  un  número  par”,  luego  por  extensión  A = { 2,4,6} 

“sale  un  número  impar”,  luego  B=  { 1,  3,  5 } 

“sale  un  número  menor  que  4”,  luego  C=  {1,2,3} 

Así  los  sucesos  A+C,  A.B,  B.C  y Cc resultan: 


1 . A+C  = {1,2,  3,  4,  6}  2.A.B  = 0 3.  B.C  = {1,3}  4.  C^={4,5,  6} 

Definición  9:  Dos  sucesos  son  excluyentes  si  no  pueden  ocurrir  simultáneamente.  En  símbolos  A 
y B son  excluyentes  si  y sólo  si  A.B  = 0. 

En  el  Ejemplo  4,  al  arrojar  el  dado  no  puede  salir  simultáneamente  un  número  par  y un 
número  Impar,  o sea,  se  verifica  que  A.B  = 0,  es  decir  los  sucesos  Ay  B son  excluyentes. 


3.4  Definición  clásica  de  probabilidad 

Para  introducir  la  noción  de  probabilidad  se  utiliza  el  siguiente 
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Ejemplo  5:  En  una  urna  hay  6 fichas  idénticas  y bien  mezcladas  5 de  color  y 1 blanca.  Si  se  realiza 
el  siguiente  experimento  aleatorio 


E.  "extraer  una  ficha  de  la  urna” 


el  espacio  muestral  asociado  es 

S = {b,  Ci,  c2,  c3,  c4,  c5} . 


Teniendo  en  cuenta  el  espacio  muestral,  ¿es  de  esperar  que  la  ficha  blanca  tenga  la 
misma  posibilidad  de  ser  extraída  que  una  ficha  de  color?.  La  respuesta  es  no,  ¿cómo  cuantificar 
esa  posibilidad?.  Para  ello  se  definen  los  siguientes  sucesos  aleatorios 

A.  “salga  una  ficha  de  color”  y B:  “salga  la  ficha  blanca”. 

Las  posibilidades  de  obtener  una  ficha  de  color  son  mayores  que  las  de  obtener  una  ficha 
blanca.  Exactamente  son  5/6  y 1/6  respectivamente,  donde  el  número  6 indica  la  cantidad  total  de 
fichas  de  la  urna,  es  decir  el  número  total  de  resultados  posibles  del  experimento  (cantidad  de 
elementos  del  espacio  muestral)  y el  número  5 indica  la  cantidad  de  fichas  de  color,  es  decir  la 
cantidad  de  resultados  favorables  al  suceso  A y el  número  1 la  cantidad  de  fichas  blancas,  es  decir 
la  cantidad  de  resultados  favorables  al  suceso  B.  A los  valores  5/6  y 1/6  se  los  llama  probabilidad. 

Definición  10:  La  probabilidad  de  un  suceso  A es  el  cociente  entre  el  número  de  resultados 
favorables  al  suceso  A y el  número  de  resultados  posibles  del  experimento  (m  y n 
respectivamente).  En  símbolos 


n 

Es  Importante  notar  que  para  aplicar  esta  definición  deben  verificarse  dos  supuestos  muy 
Importantes 

1 . El  número  de  elementos  del  espacio  muestral  debe  ser  finito. 

2.  Todos  los  resultados  del  experimento  aleatorio  deben  ser  igualmente  posibles  (equiprobables). 

Por  ello,  en  el  Ejemplo,  se  resalta  el  hecho  que  las  fichas  "son  Idénticas"  y "están  bien  mezcladas". 

Ejemplo  6:  Suponga  que  de  un  mazo  de  50  cartas  un  jugador  recibe  una  carta.  ¿Cuál  es  la 
probabilidad  de  que  el  jugador 

a)  reciba  un  rey?  b)  reciba  una  copa? 

c)  reciba  una  carta?  d)  no  reciba  ninguna  carta? 


Solución: 

• Para  resolver  este  problema  se  debe  observar  primero  si  se  verifican  los  dos  supuestos 
Indicados  anteriormente.  En  este  caso,  el  número  de  elementos  del  espacio  muestral  es  finito 
n=50  y,  bajo  el  supuesto  de  que  el  mazo  esté  bien  barajado,  cada  carta  tiene  la  misma 
posibilidad  de  ser  extraída,  esto  es  P(obtener  una  carta  cualquiera)=l/50. 

• SI  se  denotan  A,  B,  C y D los  sucesos  definidos  en  cada  uno  de  los  incisos  anteriores,  se  tiene: 
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P(A)  = 4/50,  P(fl)  = 12/50  , P(C)  = P(S)  = 50/50=1  y P(D)  = P (0)  = 0/50=0 
En  general  se  verifica: 

1 . 0 < P(>4)  < 1 , para  cualquier  suceso  A. 

2.  P(S)  = 1. 

3.  P(0)  = 0. 

En  base  a las  Definiciones  9 y 10  se  deducen  las  siguientes  consecuencias: 

• A.B  = 0 sí  y sólo  sí  P(AB)  = 0. 

• Si  P(AB)  A 0 entonces  Ay  B son  no  excluyentes. 


3.5  Definición  estadística  de  probabilidad 

A continuación  se  presenta  la  idea  de  regularidad  estadística,  nombre  que  se  admite  como 
adecuado  para  indicar  el  siguiente  hecho:  si  un  fenómeno  se  repite  en  las  mismas  condiciones  un 
número  considerable  de  veces  111,112,113,...  (con  ni>  no  > 113  >...),  se  determina  para  el  suceso  de 
interés  A la  frecuencia  relativa  (frA)  y si  se  observa  que  dichas  frecuencias  relativas  tienden  a 
estabilizarse  alrededor  de  un  número,  se  dice  que  el  fenómeno  se  comporta  con  regularidad 
estadística.  La  definición  estadística  de  probabilidad  de  un  suceso  está  basada  en  esto. 

Para  fijar  esta  idea  se  presentan  los  siguientes  ejemplos,  a partir  de  los  cuales  se  deducirá 
la  definición  estadística  de  probabilidad. 

Ejemplo  7:  Sea  el  experimento  aleatorio  E.  "arrojar  una  moneda  balanceada”  y sean  ni=l,  112=  10, 
n3=100,...  las  veces  que  se  repite  el  experimento.  El  suceso  de  interés  en  este  caso  es  A. 
“obtener  una  cara”.  Las  frecuencias  relativas  de  cara  obtenidas  se  representan  en  el  Gráfico  1.  Si 
se  observa  este  gráfico  se  ve  que  las  frecuencias  relativas  correspondientes  al  suceso  A tienden  a 
estabilizarse  alrededor  de  un  número  fijo  1/2  . 


1 10  50  100  1000 

Número  de  tiradas 

Gráfico  4:  Proporción  de  caras  según  el  Número  de  tiradas. 


-50- 


Probabilidades 


Ejemplo  8:  Los  siguientes  datos  son  obtenidos  de  una  publicación  de  cifras  demográficas  relativas 
a nacimientos  de  bebés  clasificados  por  sexo,  se  tomaron  muestras  de  tamaño  10,  100,  1000, 
10000,  100000  nacimientos.  La  frecuencia  para  cada  sexo  en  cada  muestra  se  indican  en  la  Tabla 
1.  Observando  la  columna  de  fry  se  nota  fácilmente  que  a medida  que  aumenta  el  número  de 
nacimientos,  la  proporción  de  varones  nacidos  tiende  a estabilizarse  alrededor  de  0.51.  Para 
simplificar  este  ejemplo  no  se  consideraron  los  nacimientos  múltiples  y además  sólo  se  tomaron 
los  nacidos  vivos. 


Tabla  1:  Frecuencias  por  sexo 


Tamaño  de 
muestra 

fv 

Ím 

frv 

F rM 

10 

6 

4 

0.60000 

0.40000 

100 

55 

45 

0.55000 

0.45000 

1000 

526 

474 

0.52600 

0.47400 

10000 

5187 

4813 

0.51870 

0.48130 

100000 

51005 

48995 

0.51005 

0.48995 

Todo  lo  anterior  conduce  a la  siguiente  definición  de  probabilidad  en  términos  de  la 
frecuencia  relativa,  la  cual  puede  considerarse  la  Definición  Estadística  o Frecuencia I de 
Probabilidad. 


Definición  11:  A medida  que  aumenta  el  número  n de  repeticiones  de  un  experimento  E, 
ejecutado  en  las  mismas  condiciones,  la  frecuencia  relativa  correspondiente  a un  suceso 
cualquiera  A tiende  a estabilizarse  en  un  número.  Ese  número  es  el  que  se  llama  Probabilidad  y 
puede  ser  expresado  como 


lim  frA  = P(a) 

n— >oo 


o sea  cuando  el  tamaño  de  la  muestra  es  grande  se  tiene  que 


frA=P  (A) 


Si  se  comparan  las  Definiciones  10  y 11  se  puede  deducir  que,  para  obtener  la 
probabilidad  de  un  suceso  en  base  a la  definición  clásica  no  es  necesario  realizar  el  experimento, 
en  tanto  que  si  se  la  desea  obtener  en  base  a la  definición  estadística  se  lo  debe  realizar  pues  la 
misma  está  en  función  de  la  frecuencia  relativa. 

Otra  manera  de  presentar  la  noción  de  probabilidad  está  basada  en  el  método  axiomático 
(Meyer,  P.  1992).  Este  abordaje  requiere  la  realización  del  experimento  y puede  aplicarse  sobre 
espacios  muéstrales  infinitos  Esta  forma  de  definir  la  probabilidad  no  será  presentada  en  este 
texto. 


3.6  Probabilidad  de  algunos  sucesos  importantes 

En  la  Sección  3.3  se  definieron  algunas  relaciones  entre  sucesos.  Se  muestra  a 
continuación  la  forma  de  calcular  la  probabilidad  de  esos  sucesos. 


3.6.1  Probabilidad  del  Suceso  Suma 

La  probabilidad  de  la  suma  de  dos  sucesos  Ay  B es 
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P(>4+  B)  = P(A)  + P(fl)  - P(A.  B) 

Cuando  Ay  B son  excluyentes , P(A.  6)  = 0 y entonces  la  probabilidad  del  suceso  suma  es 

P (A  + B)  = P(A)  + P (S) 

Este  resultado  se  puede  demostrar  fácilmente  utilizando  algunos  conceptos  de  la  teoría  de 
conjunto. 

Ejemplo  9:  Hallar  la  probabilidad  de  sacar  un  rey  o un  corazón  de  un  mazo  de  52  cartas  bien 
mezcladas. 

Solución: 

E.  "extraer  una  carta  al  azar"  S = {x  / x es  una  carta  del  mazo} 

A = {sacar  un  rey}  B = {sacar  un  corazón}  y A.  B = {sacar  un  rey  de  corazón} 

A + B = {sacar  un  rey  o un  corazón} 

Ahora  se  dispone  de  todos  los  datos  necesarios  para  dar  la  solución  del  problema 
planteado,  que  en  términos  de  probabilidad  es 

P(A+  B)  = P(A)  + P (S)  - P(A.  B)  = 4/52  + 13/52  - 1/52  = 16/52  = 0.3 1 

Esto  significa  que  si  se  repite  muchas  veces  el  experimento  E en  aproximadamente  el  31%  de  los 
casos  sale  un  rey  o un  corazón. 

Ejemplo  10:  Un  tirador  dispara  a un  blanco  dividido  en  tres  zonas.  La  probabilidad  de  ¡mpactar  en 
la  primera  zona  es  0.45  y en  la  segunda  es  0.35.  Hallar  la  probabilidad  de  que  pegue  en  la  primera 
o en  la  segunda  zona. 

Solución: 

E.  " tirar  al  blanco"  S = {z1;  z2,  z3} 

Es  este  caso  se  definen  los  sucesos 

A = {¡mpactar  en  la  zona  1}  B = {¡mpactar  en  la  zona  2} 

Es  Importante  notar  que  los  sucesos  Ay  B son  excluyentes,  entonces 
P (A+  B ) = P(A)  + P (S)  = 0.35  + 0.45  = 0.80 


3.6.2  Probabilidad  del  suceso  complemento 

La  probabilidad  del  suceso  Ac  es  Igual  a 1 menos  la  probabilidad  del  suceso  A.  En  símbolos 

P(AC)  = 1 - P(A) 

Para  verificar  esta  Igualdad  se  debe  tener  en  cuenta  que  el  espacio  muestral  se  puede 
pensar  como  la  unión  de  dos  subconjuntos  excluyentes,  es  decir:  S = A U Ac  (o  equivalentemente 
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S = A + AC).  Aplicando  el  operador  probabilidad  a ambos  miembros  y recordando  que  los  sucesos 
A y Ac  son  excluyentes  se  tiene  que 


P(S)=  P(A)  + P (Ac) 

y dado  que  P(S)=1  se  puede  escribir 

1 = P(A)  + P(AC) 

y despejando  se  obtiene  la  expresión  inicial. 

Ejemplo  11:  La  probabilidad  de  que  un  equino  tenga  tumores  cutáneos  es  0.70.  ¿Cuál  es  la 
probabilidad  de  que  un  equino  elegido  al  azar  no  tenga  tumores  cutáneos?. 

Para  determinar  esta  probabilidad  se  aplica  el  resultado  anterior.  Luego  se  tiene 
P (Ac)=  1 - P (A)  = 1 - 0.70  = 0.30 


3.6.3  Probabilidad  del  suceso  producto 


Antes  de  determinar  la  probabilidad  del  suceso  producto,  se  presentan  los  conceptos  de 
sucesos  independientes  y sucesos  dependientes. 

Definición  12:  Dos  sucesos  A y B se  dicen  estadísticamente  independientes  cuando  la 
probabilidad  de  que  ocurra  uno  de  ellos  (A)  no  depende  de  la  ocurrencia  o no  del  otro  (B). 

En  términos  probabilístlcos  esta  definición  se  puede  escribir  de  la  siguiente  manera 


o análogamente 


P(  A / B ) = P(  A ) 
P(  B / A ) = P(  B ) 


Definición  13:  Dos  sucesos  se  dicen  estadísticamente  dependientes  cuando  la  probabilidad  de 
que  ocurra  uno  de  ellos  (A)  se  ve  afectada  por  la  ocurrencia  de  otro  (B).  En  símbolos 


P(  A / B ) A P(  A ) o P(  B / A ) * P(  B ) 

La  expresión  P(A  / B)  indica  la  probabilidad  de  un  suceso  A condicionado  a la  ocurrencia  de  otro 
suceso  B. 


Definición  14:  La  Probabilidad  Condicional  de  un  suceso  A dado  otro  suceso  B es  igual  al 
cociente  entre  la  probabilidad  del  suceso  producto  A.B  y la  probabilidad  del  suceso  B.  En  símbolos 

P(  A / B ) = P (A.  B)  / P(B)  si  P(B)  A 0 

Análogamente 

P(  B / A ) = P (A.  B ) / P(A)  si  P(A)  A 0 

Para  comprender  esta  definición  se  presenta  el  siguiente  ejemplo 
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Ejemplo  12:  La  Tabla  2 reproduce  los  datos  del  Problema  1.6  que  trata  sobre  tumores  cutáneos 
en  equinos  según  el  color  del  pelaje. 


Tabla  51:  Distribución  de  frecuencias  según  el  color  y presencia  del  tumor. 


PRESENCIA  DE  TUMOR 
COLOR 

Si 

No 

TOTAL 

Alazán 

220 

80 

300 

Zaino 

135 

115 

250 

Tordillo 

415 

35 

450 

TOTAL 

770 

230 

1000 

Sea  entonces  el  experimento:  E.  “Extraer  un  animal  al  azar" . 

a)  ¿Cuál  es  la  probabilidad  de  que  el  animal  elegido  sea  de  color  zaino?. 

b)  ¿Cuál  es  la  probabilidad  de  que  el  animal  sea  de  color  zaino  dado  que  tiene  tumor  cutáneo?. 

c)  ¿ Los  sucesos  “color  zaino”  y “presencia  de  tumor  cutáneo”  son  sucesos  Independientes  ?. 

Solución: 

a)  En  primer  lugar  se  debe  definir  el  suceso  A = {animal  de  color  zaino}  entonces 

P(A)  = nA  / n = 250/1000 

Lo  que  Indica  que  aproximadamente  el  25%  de  los  animales  son  de  color  zaino. 

b)  Interesa  calcular  la  probabilidad  condicional  P(A  / 6)  donde  B = {animal  que  presenta  tumor}. 
Para  calcular  esta  probabilidad  se  puede  utilizar  la  definición  clásica.  La  información  adicional 
“presenta  tumor  cutáneo"  reduce  el  espacio  muestral  S al  subconjunto  de  animales  con  tumor 
cutáneo,  de  allí  que  los  casos  posibles  corresponden  a la  cantidad  de  animales  con  tumores 
cutáneos  (en  este  caso  770),  mientras  que  los  casos  favorables  corresponden  a los  animales 
que  verificaron  las  dos  condiciones  "color  zaino  y presenta  tumor ".  Entonces 

P(A/6)  = ^^  = — = 0.18 
nB  770 


El  mismo  resultado  se  obtiene  si  se  aplica  la  Definición  14 


P (A/B) 


P(AS) 

P(B) 


135/1000 

770/1000 


135 

770 


0.18 


Dada  la  equivalencia  entre  ambos  modos  de  calcular  la  probabilidad  condicional,  cuando  se 
cuenta  con  tablas  de  contingencia  es  recomendable  usar  la  definición  clásica  (reduciendo  el 
espacio  muestral). 

c)  La  Independencia  se  verifica  si  P(A  / B)  = P(A).  En  este  caso 


1 Coincide  con  la  Tabla  5 del  Capítulo  1. 
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P(>4  / B ) =135/770  = 0.18  y P(A)  = 250/1000  = 0.25 

como  P(,A  / B)  ^ P(A)  se  concluye  que  los  sucesos  “color  zaino”  y “presencia  de  tumor 
cutáneo”  no  son  sucesos  Independientes. 

Se  supone  que  n=1000  es  un  tamaño  suficientemente  grande  como  para  verificarse  la 
aproximación  adecuada  entre  las  frecuencias  relativas  y las  probabilidades  respectivas. 

Una  vez  resuelto  el  problema  de  cómo  determinar  la  probabilidad  condicional  se  está  en 
condiciones  de  abordar  el  cálculo  de  la  probabilidad  del  suceso  producto.  Despejando  P(¿4.B)  de  la 
expresión  dada  en  la  Definición  14,  se  obtiene 

P(A.B)  = P(A/B)  . P(B) 

SI  A y B son  sucesos  independientes,  por  la  Definición  12  resulta  P(¿4  / B)  = P(  A ),  entonces 

P (A.B)  = P(A).P(B) 

Cuando  los  sucesos  Ay  B son  resultados  de  un  experimento  que  consiste  en  la  extracción 
de  elementos  de  una  población  finita,  para  calcular  la  probabilidad  del  suceso  producto  (y  la 
condicional)  se  debe  tener  en  cuenta  si  el  experimento  se  ha  realizado  con  reposición  o sin 
reposición. 

Para  comprender  mejor  este  hecho  se  desarrollará  el  siguiente 

Ejemplo  13:  De  un  mazo  de  52  cartas  se  seleccionan  al  azar  dos  cartas.  ¿Cuál  es  la  probabilidad 
de  que  ambas  sean  de  diamante?. 

Solución: 

Para  responder  esta  pregunta  se  distinguirán  dos  casos: 

1.  La  primera  carta  extraída  es  devuelta  al  mazo  antes  de  extraer  la  segunda. 

2.  La  primera  carta  extraída  no  es  devuelta  al  mazo  y se  extrae  la  segunda. 

Sean  los  siguientes  sucesos: 

A = {obtener  un  diamante  en  la  primera  extracción}. 

B = {obtener  un  diamante  en  la  segunda  extracción}. 

La  probabilidad  buscada  es  P(AB) 

1-  P(A)  = 13/52  y P(B  / A)  = P(B)=13/52  porque  la  primera  carta  extraída  es  devuelta  al  mazo 
antes  de  extraer  la  segunda.  Luego  Ay  B son  sucesos  Independientes  y entonces 


P(obtener  diamante  en  la  primera  y en  la  segunda  extracción)  = P(A.B) 

= P(A).P(B) 
=169/2704  = 0.0625 


2.  ?(A)  = 13/52  y P(B  / A)=12/51  porque  la  primera  carta  extraída  no  es  devuelta  al  mazo  y se 
extrae  la  segunda,  lo  que  hace  que  Ay  B sean  sucesos  dependientes.  Entonces 
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P(obtener  diamante  en  la  primera  y en  la  segunda  extracción)  = P(A.B) 

= P(A).P  (BIA) 

=156/2652  = 0.059 

En  general  el  experimento  definido  en  el  caso  1 se  denomina  selección  con  reposición, 
mientras  que  el  caso  2 se  denomina  selección  sin  reposición. 


3.7  Teorema  de  Bayes 


El  teorema  de  Bayes  es  un  resultado  muy  utilizado  para  resolver  problemas  como  el 
planteado  a continuación 

Ejemplo  14:  En  cierta  investigación  se  desea  calcular  la  probabilidad  de  que  un  animal  presente 
una  cierta  enfermedad  dado  que  está  vacunado  conociendo  que  la  probabilidad  de  que  esté 
vacunado  dado  que  contrajo  la  enfermedad  es  0.20. 

Observar  que  se  desea  determinar  una  probabilidad  condicional  teniendo  la  probabilidad 
condicional  inversa. 


Para  solucionar  este  problema  es  necesario  enunciar  el  siguiente 

Teorema:  Sea  E un  experimento  aleatorio,  S el  espacio  muestral  y sean  Bi,  Bi,...,  Bk  sucesos 

k 

mutuamente  excluyentes  (es  decir  B¡  fl  Bj  = 0 para  todo  ÍAj)  tales  que  S = |J  B.  . Entonces 

i = 1 


para  cualquier  suceso  A del  espacio  muestral  S,  se  tiene  que 


P(A/Bj).P(Bj) 

Xp(A/B¡).P(B¡) 

i=l 


Notar  que  A = ADS  = AD 


UB¡ 

u=i 


ÚtAOBi). 


i=l 


Así  para  solucionar  el  problema  planteado  vamos  a utilizar  el  teorema  enunciado  (Mendenhall,  W. 
et.  al.  1994). 


Solución: 


Para  este  caso  se  tiene  que  el  experimento  aleatorio  £ es  "elegir  al  azar  un  animal”,  luego  al 
espacio  muestral  se  lo  puede  pensar  como  la  unión  de  los  siguientes  sucesos: 

B^que  el  animal  contraiga  la  enfermedad}  y B2={que  el  animal  no  contraiga  la  enfermedad}, 
entonces  S = B1UB2  yBinB2=0.  Sea  el  suceso  A = {el  animal  está  vacunado}  entonces 
A = AnS  = An  (B1UB2)  = (AnBi)u(AnB2)  y aplicando  probabilidad  a ambos  miembros  se 
obtiene  P(A)  =P(A/B0.P(Bi)  + P(A/B2).P(B2) 


Luego  la  expresión  de  la  probabilidad  que  se  desea  determinar  es 


P(B,/A) 

En  términos  del  problema  se  tiene: 


P(A/B,).P(B,) 

p(a/b,).p(b,)+p(a/b2).p(b2) 
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La  probabilidad  de  que  un  animal  contraiga  la  enfermedad  es  0.75  y la  probabilidad  de  que  un 
animal  esté  vacunado  sabiendo  que  no  contrajo  la  enfermedad  es  0.70.  Entonces 


P(B1  / A)  = 


020^0/75 

0.20 . 0.75  + 0.70 . 0.25 


0.15 

0.325 


0.46 


Este  resultado  está  indicando  que  aproximadamente  el  46  % de  los  animales  que  están  vacunados 
presentan  la  enfermedad. 


Ejercicios  de  Aplicación 

1.  (Un  poco  de  teoría  de  conjuntos  y probabilidad) 

Sea  el  experimento  de  “arrojar  una  moneda  equilibrada  y un  dado  regular  en  ese  orden”. 

a)  En  la  figura  siguiente  se  muestran  el  espacio  muestral  de  este  experimento  y dos 
sucesos,  A y B.  Describir  estos  sucesos  y calcular  su  probabilidad. 

b)  Calcular  P(A.  B)  y P(A  + B)  e interpretar  el  resultado  para  este  caso  particular. 


Espacio  muestral  para  el  Experimento  “arroja  una  moneda  y un  dado”. 
(Con  x y c se  simbolizan  “cruz”  y “cara”,  respectivamente). 


Sean  A y B dos  características  genéticas  y supóngase  que  la  probabilidad  de  que  un 
animal  manifieste  la  característica  A es  1/2  , 3/4  de  que  manifieste  la  B y 3/8  que  las 
manifieste  a ambas.  ¿ Cuál  es  la  probabilidad  de  que  un  animal  manifieste  las 
características  A o B ?. 


A continuación  se  da  la  clasificación  de  872  campos  seleccionados  en  una  investigación 
sobre  el  rendimiento  de  arroz,  clasificados  de  acuerdo  al  tipo  de  abono  e irrigación. 


2 

En  este  problema  y en  los  siguientes  se  supone  que  n es  suficientemente  grande  como  para  verificarse  la 
aproximación  adecuada  entre  las  frecuencias  relativas  y las  probabilidades  respectivas. 
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IRRIGACIÓN 

ABONO 

Si 

No 

Sin  Abono 

123 

413 

Estiércol 

81 

223 

Otros  Abonos 

14 

18 

a ) Si  se  selecciona  uno  de  esos  campos  al  azar,  hallar: 

I.  P(“sln  abono”). 

i¡.  P(“de  estar  irrigado  y con  estiércol”). 

iii.  P(“sin  abono  o con  estiércol,  y no  irrigado”). 

¡v.  P(“de  estar  irrigado  dado  que  no  está  abonado”), 
v.  P(“tener  estiércol  u otros  abonos”). 

b)  ¿Son  independientes  los  sucesos  “estar  irrigado  y estar  abonado”  ?. 


Un  total  de  86  bovinos  afectados  de  fractura  de  primera  falange  fueron  tratados  con  dos 
procedimiento  específicos,  uno  tradicional  y otro  nuevo.  Se  confeccionó  un  registro  para 
cada  animal  donde  se  dejaba  constancia  del  tratamiento  aplicado  y de  los  resultados  del 
mismo.  Dichos  registros  arrojaron  la  siguiente  clasificación:  de  los  tratados  con  el 
procedimiento  tradicional  42  se  recuperaron  y 9 no,  en  tanto  que  entre  los  tratados  con  el 
nuevo  procedimiento  17  se  recuperaron  y 18  no. 

SI  se  elige  uno  de  los  86  registros  al  azar,  encontrar  la  probabilidad  de  que  el  animal: 

a)  haya  sido  tratado  con  el  nuevo  procedimiento. 

b)  haya  sido  tratado  con  el  procedimiento  tradicional  y se  haya  recuperado. 


Considerar  el  experimento  aleatorio  “registrar  el  sexo  de  las  dos  primeras  crías  de  una 
vaca  de  cierta  raza"  (suponga  que  P(H)=P(M)=  1/2  ). 

a)  Describir  el  espacio  muestral  (S)  correspondiente  a este  experimento  aleatorio. 

b)  Completar  con  las  probabilidades  requeridas  la  siguiente  tabla: 


Evento 

Probabilidad 

“que  ambas  crías  sean  machos” 

“que  una  cría  sea  hembra” 

“que  sólo  una  cría  sea  macho” 

c)  En  el  siguiente  gráfico  se  informan  los  resultados  correspondientes  a una  serle 
sucesiva  de  repeticiones  del  experimento  y las  correspondientes  frecuencias  relativas 
del  evento  “que  ambas  crías  sean  hembras”.  ¿Qué  concepto  teórico  permite  relacionar 
el  comportamiento  de  las  frecuencias  relativas  con  el  valor  de  la  probabilidad  del 
evento?. 
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Probabilidades 


Frecuencias  relativas  del  evento  “que  ambas  crías  sean  hembras” 
versus  el  número  de  repeticiones  del  experimento. 


Se  cruzan  dos  organismos  heterocigotos  con  genotipo  Aa  para  cierta  característica;  un 
individuo  de  la  primera  generación  de  dicho  cruzamiento  puede  poseer  los  siguientes 
cuatro  genotipos: 


A 

a 

A 

AA 

Aa 

a 

aA 

aa 

a ) Calcular  la  probabilidad  de  cada  una  de  las  combinaciones  posibles,  suponiendo  que 
todas  son  Igualmente  probables. 

b)  En  la  descendencia  anterior  los  individuos  que  son  AA  no  pueden  ser  Aa  o aa  al  mismo 
tiempo.  ¿Cómo  se  denomina  a los  sucesos  que  mantienen  esa  relación  y cómo  se 
expresa  matemáticamente?. 

c)  ¿Cuál  es  la  probabilidad  de  que  un  individuo  de  la  primera  generación  sea 
heterocigota?. 


En  un  heterocigota  (Aa)  al  formarse  los  gametos  puede  ser  que  lleve  el  alelo  "A"  o el  "a" 
con  igual  probabilidad.  Otro  heterocigota  Aa  formará  las  mismas  gametas  con  igual 
probabilidad  pero  será  un  suceso  independiente  al  anterior.  Por  lo  tanto  al  producirse  un 
cruzamiento  la  probabilidad  de  un  genotipo  cualquiera  será  igual  al  producto  de  las 
probabilidades  genéticas  que  le  darán  origen. 

a)  Expresar  la  independencia  mencionada  en  términos  probabilísticos. 

b)  Hallar,  utilizando  la  independencia,  la  probabilidad  de  un  genotipo  cualquiera  para  un 
individuo  de  la  primera  generación.  Comparar  con  lo  obtenido  en  el  ejercido  anterior. 


Ciertos  genes  afectan  el  pelaje  de  los  gatos  domésticos.  Uno  de  estos  genes  determina  si 
el  gato  tienen  pelaje  blanco  o blanco  con  manchas  y otro  de  los  genes  determina  si  el 
pelaje  es  largo  o corto.  En  la  siguiente  tabla  se  muestran  algunas  de  las  probabilidades  de 
que  un  gato,  miembro  de  la  primera  generación  filial  de  un  cruzamiento  de  gatos 
heterocigotas,  posea  alguna  de  las  combinaciones  según  el  color  y tipo  de  pelaje: 
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TIPO  DE  PELAJE 
COLOR  DE  PELAJE 

Largo 

Corto 

Blanco 

Manchado 

0.18 

0.56 

Completar  con  las  probabilidades  faltantes  de  tal  manera  que  los  eventos  “que  el  gato 
posea  un  color  de  pelaje  blanco”  y “que  el  gato  posea  un  pelaje  largo”  resulten 
independientes. 


La  queratosls  (anomalía  de  la  piel)  es  debida  a un  gen  dominante  Q.  Una  mujer  con 
queratosls  cuyo  padre  era  normal,  se  casa  con  un  hombre  con  queratosls  cuya  madre  era 
normal.  SI  esa  pareja  tiene  4 hijos.  ¿Cuál  es  la  probabilidad  de  que  todos  ellos  tengan 
queratosls?. 


10. 

En  el  pollo  las  plumas  sedosas  están  determinadas  por  un  gen  cuyo  efecto  es  recesivo 
respecto  al  que  rige  las  plumas  normales.  Si  de  un  cruzamiento  entre  individuos 
heteroclgotas  se  criasen  98  aves.  Utilizando  la  definición  estadística  de  probabilidad: 
¿cuántos  pollos  cabría  esperar  que  tuvieran  plumas  sedosas,  y cuántos  plumas 
normales?. 


11. 

En  la  producción  de  cerdos  es  estratégicamente  Importante  el  control  de  las  enfermedades 
respiratorias,  ya  que  éstas  son  causantes  de  pérdidas  sustanciales.  Una  de  tales 
enfermedades  es  la  neumonía,  y una  manera  de  cuantlflcar  su  Impacto  es  a través  del 
área  pulmonar  afectada. 

En  un  frigorífico  se  realizó,  a través  del  tiempo,  una  clasificación  de  10000  cerdos  según  la 
edad  y el  área  pulmonar  afectada  por  la  neumonía,  ambas  convertidas  en  variables 
cualitativas.  El  siguiente  cuadro  describe  los  porcentajes  de  los  animales  clasificados 
según  esas  variables: 


EDAD 

ÁREA  PULMONAR 

Menor 

Mayor 

0-15% 

4000 

4300 

1 6%  o más 

300 

1400 

Suponiendo  que  los  datos  obtenidos  en  el  frigorífico  son  una  descripción  acertada  del 
estado  de  los  cerdos  de  los  criaderos  de  la  zona,  ¿cuál  es  la  probabilidad  de  que  un  cerdo 
elegido  al  azar  de  dichos  criaderos: 

a)  tenga  un  área  pulmonar  afectada  del  16%  o más?. 

b)  que  sea  de  edad  menor  ?. 

c)  que  sea  de  edad  mayor  y tenga  un  área  pulmonar  afectada  de  15%  o menos?. 

d)  ¿son  independientes  los  eventos  “que  un  cerdo  posea  16%  o más  de  área  pulmonar 
afectada”  y “que  un  cerdo  sea  de  edad  mayor”. 
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Objetivos: 

♦ Identificar  variables  aleatorias  discretas. 

♦ Construir  la  tabla  de  distribución  de  probabilidades  de  una  variable  aleatoria  discreta. 

♦ Reconocer  los  parámetros  de  las  distribuciones  de  probabilidades. 


4.1  Variable  Aleatoria 


Al  describir  el  espacio  muestral  de  un  experimento,  no  se  ha  especificado  que  un 
resultado  individual  necesariamente  deba  ser  un  número.  De  hecho,  se  han  citado  varios 
ejemplos  donde  el  resultado  del  experimento  no  fue  una  cantidad  numérica.  En  esos  casos  la 
variable  respuesta  del  experimento  es  una  categoría,  es  decir  que  el  espacio  muestral 
correspondiente  a ese  experimento  no  es  un  conjunto  de  números.  Sin  embargo,  en  muchas 
situaciones  experimentales  se  está  interesado  en  asignar  un  número  real  a cada  uno  de  los 
elementos  del  espacio  muestral. 

Para  entender  esta  idea  se  presenta  el  siguiente 

Ejemplo  1:  Sea  E:  “tirar  un  dado  2 veces”  el  experimento  y S={(1,1),(1,2),(1,3),...,(6,6)}  su 
espacio  muestral. 

Se  definen  sobre  este  espacio  muestral  tres  variables: 

Xj:  Cantidad  de  números  pares  que  aparecen  en  la  cara  superior. 

Xi:  Diferencia  entre  los  números  que  aparecen  en  la  cara  superior. 


X3:  Producto  de  los  números  que  aparecen  en  la  cara  superior. 


Cada  una  de  estas  variables  es  una  función  que  asigna  a cada  resultado  del 
experimento  aleatorio  (elemento  del  espacio  muestral)  un  número  real. 


A partir  de  esta  idea  intuitiva  se  puede  dar  la  siguiente 
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Definición  1:  Sea  E un  experimento  aleatorio  y S el  espacio  muestral  asociado  con  dicho 
experimento.  Una  función  X que  asigna  a cada  uno  de  los  elementos  s de  S un  número  real 
X(s)  se  llama  variable  aleatoria,  lo  que  se  puede  expresar  en  símbolos 


X:  S ->  5? 
s i— ■>  X(s) 

El  conjunto  de  valores  posibles  que  puede  asumir  una  variable  aleatoria  es  llamado  recorrido  o 
imagen  de  la  variable,  denotado  por  R(X).  Para  el  Ejemplo  1 

R(Xi)  = 0,  1,2 

R(X2)  = -5,  -4,  -3,  -2,  -1,  0,  1,  2,  3,  4,  5 

R(X3)  = 1,  2,  3,  4,  5,  6,  8,  9,  10,  12,  15,  16,  18,  20,  24,  25,  30,  36 

A cada  valor  de  la  variable  se  le  puede  asociar  su  probabilidad  de  ocurrencia  y en  base 
a ellos  se  construye  una  tabla,  llamada  tabla  de  distribución  de  probabilidades. 


Para  el  Ejemplo  1 las  tablas  correspondientes  a las  variables  Xj  yX2  son: 


x2i 

Pi=P(X2=x2i) 

-5 

1/36 

-4 

2/36 

-3 

3/36 

-2 

4/36 

-1 

5/36 

0 

6/36 

1 

5/36 

2 

4/36 

3 

3/36 

4 

2/36 

5 

1/36 

1 

Xn 

p¡=P(Xi=Xii) 

0 

9/36 

1 

18/36 

2 

9/36 

1 

Para  ejemplificar  el  cálculo  de  las  probabilidades,  puede  considerarse  el  caso  P(Xi=2). 
Dado  que  el  valor  Xi=2  está  asociado  al  suceso  {(2,2),  (2,4),  (2,6),  (4,2),  (4,4),  (4,6),  (6,2), 
(6,4),  (6,6)}  resulta  P(X!=2)=9/36. 


En  cuanto  a la  notación,  se  utilizarán  mayúsculas,  como  X,  para  denotar  variables 
aleatorias  y minúsculas,  como  Xi,  para  representar  los  valores  particulares  que  puede  tomar 
una  variable  aleatoria.  Por  su  parte  p¡  representa  la  P(X=x¡). 

Notar  que  en  cada  tabla  de  distribución  de  probabilidades,  la  suma  de  las 
probabilidades  p¡  es  Igual  a 1. 


4.2  Variable  Aleatoria  Discreta 


Definición  2:  Una  variable  aleatoria  X se  llama  discreta  si  solamente  puede  tomar  un  número 
finito  o infinito  numerable  de  valores  distintos. 


Las  variables  Xi,  X2  y X3  del  Ejemplo  1 son  variables  aleatorias  discretas. 
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Definición  3:  Sea  X una  variable  aleatoria  discreta,  se  llama  fundón  de  probabilidad  puntual 
de  la  variable  X a la  función  P,  que  asigna  a cada  resultado  posible  x¡  un  número  p¡=P(X=Xi), 
el  cual  verifica  las  siguientes  condiciones 

1.  0 < p¡  <1  para  todo  i. 

k 

2.  £p¡  = 1 donde  k indica  el  número  de  valores  diferentes  que  toma  la  variable. 

i=l 


En  general  a la  colección  de  pares  (x¡,  p¡)  con  i=l,  2,  3,...,  k se  llama  Distribución  de 
Probabilidad  Puntual . 

Es  Importante  observar  la  diferencia  entre  la  tabla  de  distribución  de  probabilidades  y la 
tabla  de  distribución  de  frecuencias.  La  presentada  aquí  contiene  todos  los  valores  posibles  de 
la  variable  con  sus  respectivas  probabilidades,  mientras  que  en  la  tabla  de  distribución  de 
frecuencias  aparecen  sólo  los  valores  de  variable  que  se  dieron  en  la  muestra  y sus  frecuencias 
absolutas  y relativas.  Los  valores  fr¡  y p¡  son  proporciones,  la  diferencia  está  en  que  la  primera 
es  con  respecto  al  tamaño  de  la  muestra  mientras  que  la  segunda  es  con  respecto  a toda  la 
población.  Además,  para  construir  la  tabla  de  distribución  de  probabilidades  no  es  necesario 
realizar  el  experimento  mientras  que  para  construir  la  tabla  de  distribución  de  frecuencias  sí  lo 
es. 


La  Información  dada  por  la  tabla  de  distribución  de  probabilidades  se  puede  representar 
usando  gráficos,  como  los  que  corresponden  a una  tabla  de  frecuencias  no  agrupadas.  Por 
ejemplo  para  la  variable  Xi  el  diagrama  de  barras  es  el  que  se  muestra  a continuación.  En  el 
eje  de  las  abscisas  se  representan  los  distintos  valores  de  la  variable  Xj  y en  el  eje  de  las 
ordenadas  las  probabilidades  con  que  aparecen  dichos  valores. 


Gráfico  1:  Distribución  de  probabilidades  de  la  cantidad  de  números  pares 


4.3  Características  numéricas  de  la  variable  aleatoria 

Así  como  se  puede  resumir  la  información  de  una  muestra  estadística  mediante 
números  o valores  típicos  llamados  estadísticos,  también  se  puede  resumir  la  información  de 
una  población  estadística  mediante  números  llamados  características  numéricas  de  la  variable. 
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Las  características  numéricas  de  una  población  estadística  o valores  típicos  de  una 
población  más  utilizados  son  la  Esperanza  o Media,  la  Varianza  y la  Desviación  Estándar.  Estos 
valores  se  obtienen  a partir  de  fórmulas  análogas  a las  que  permiten  obtener  los  estadísticos 
utilizando  la  información  de  toda  la  población.  La  definición  de  cada  una  de  estas  características 
está  dada  a continuación. 

Definición  4:  Si  X es  una  variable  aleatoria  discreta,  entonces 

1.  La  esperanza  o media  poblaclonal  está  dada  por  E(x)=  ¿ p¡  X¡ 

i=l 

2.  La  varianza  poblacional  está  dada  por  Var(x)=  £ p¡  (X¡  -E(x))2 

i=l 

3.  Des(x)  = +y[v  ar 

Es  fácil  observar  la  similitud  de  estas  características  numéricas  con  los  estadísticos 
X , S“  y S.  A continuación,  se  muestra  la  similitud  existente  entre  X y E(X)  para  lo  cual  es 
importante  recordar  que  fri=p¡,  cuando  n tiende  a infinito. 

X = ¿ ¿ ^ x¡  = ¿ fnX,  = ¿ PiXi  = E(x)  , cuando  n es  grande. 

¡=i  n i=m  i=i  i=i 


4.3.1  Propiedades  de  la  Esperanza  y la  Varianza 

Si  X e Y son  variables  aleatorias  y c es  una  constante,  entonces 
Et.  E(c)  = c 
E2.  E(c.X)  = c.E(X) 

E3.  E(X±Y)  = E(X)  ± E(Y) 

E4.  Si  X e Y además  son  variables  aleatorias  independientes,  entonces 
E(X.Y)=E(X).E(Y) 


V -| . Var(c)  = 0 

V2.  Var(c.X)  = c2.Var(X) 

V3.  Si  X e Y además  son  variables  aleatorias  independientes,  entonces 
V ar(X±  Y)= V ar(X)  + Var(Y) 

Ejemplo  2:  Calcular  la  E(Xi)  y Var(Xi)  para  la  variable  Xi  definida  anteriormente. 


tjív  t 9 18  9 36 

EÍX i ) — — .Oh • 1 H .2  — — — 1 

v ' 36  36  36  36 


Que  la  E(Xi)  = 1 significa  que  si  se  repite  muchas  veces  el  experimento  de  arrojar  dos  veces 
un  dado  y se  cuentan  en  cada  repetición  los  números  pares  que  aparecen  en  la  cara  superior, 
entonces  la  cantidad  de  números  pares  en  cada  repetición  es  aproximadamente  1 . 
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Var(X1)  = — .(0-l)2+  — .(l-l)2+  — -(2-l)2  = — .1  + — .0  + — . 1 = 0.5 
V ' 36  v ’ 36  V 7 36  V ’ 36  36  36 


Des(X1)  = +V05  =0.71 


Muchos  son  los  experimentos  que  se  pueden  ajustar  a distintos  modelos  probabilísticos 
para  variables  aleatorias  de  tipo  discreto,  entre  ellos  se  estudiarán  en  detalle  los  Modelos 
Probabilísticos  Bernoulli,  Binomial,  Hipergeométrico,  Poisson,  Geométrico  y Binomial  Negativo. 


4.4  Modelo  Probabilístico  Bernoulli 

En  primer  lugar  se  desarrollará  el  modelo  básico  para  generar  los  modelos  mencionados 
anteriormente. 

Ejemplo  3:  Un  vendedor  de  semillas  de  cierta  especie  garantiza  un  poder  germinativo  del  90%. 
Una  persona  selecciona  1 semilla  y la  siembra  en  una  maceta.  ¿Cuál  es  la  probabilidad  de  que 
germine  ?. 

Solución:  En  este  caso 

E:  “sembrar  1 semilla”  S = {G,NG} 

X:  número  de  semillas  que  germinan  R(X)  = 0,1 

P(que  una  semilla  germine)  = P(X=1)  = 0.90 

La  distribución  de  probabilidades  de  la  variable  X es: 


Tabla  1:  Distribución  de  probabilidades  del  Número  de  semillas  que  germinan 


X, 

Elementos  de  S 

p¡  = P(X=x¡) 

0 

NG 

0.10 

1 

G 

0.90 

Definición  5:  Se  dice  que  un  experimento  es  un  Ensayo  de  Bernoulli  si  tiene  sólo  dos 
resultados  posibles,  uno  se  denominará  éxito  (E)  y el  otro  fracaso  (F). 

En  este  caso  el  espacio  muestral  es  S = {E,F}. 

Llamando  p=P(Exito)  y q=P(Fracaso)  y teniendo  en  cuenta  que 
P(Exito)+P(Fracaso)=l  (o  sea  p+q=l)  se  obtiene  que  q=l-p. 

En  el  Ejemplo  3 resulta  q=P(Fracaso)=P(una  semilla  no  germine)=  1-0.90=0. 10. 

Definición  6:  El  parámetro  del  modelo  Bernoulli  es  p (probabilidad  del  suceso  éxito). 

Para  el  Ejemplo  3,  el  suceso  éxito  es  “la  semilla  germina”  y el  parámetro  es  p=0.90. 

Definición  7:  La  variable  aleatoria  Bernoulli Xber  cuenta  el  número  de  éxitos  cuando  se  realiza 
un  Ensayo  de  Bernoulli. 
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El  conjunto  de  valores  que  asume  es  R(Xber)=0,1. 

Definición  8:  La  probabilidad  de  obtener  k éxitos  en  un  Ensayo  de  Bernoulli  está  dada  por 

P(XBER=k)  = pk  (l-p)^  con  k=0,l 

Notar  que  Zpk(l_py  k=l- 

k=0 


4.4.1. Características  Numéricas 

Las  características  numéricas  de  la  variable  aleatoria  Bernoulli  son: 

1 . E(XBer)=P 

2.  Var(XISI:R)=p.q 

3. Des(XBER)  = Vp^q 


El  resultado  de  cada  una  de  ellas  es  inmediato. 


Algunos  experimentos  no  responden  en  forma  inmediata  a las  características  de  un 
Ensayo  de  Bernoulli.  Por  ejemplo  el  experimento  E.  “tirar  un  dado  equilibrado”  tiene  más  de  dos 
resultados  posibles,  o sea  S={1 ,2, 3, 4, 5, 6}.  Pero  si  se  definen  E:  {sale  un  número  cinco}  y F: 
{sale  un  número  distinto  de  cinco}  puede  pensarse  al  experimento  con  sólo  dos  resultados 
posibles,  verificando  así  la  condición  deseada.  Por  tanto  es  posible  transformar  algunos 
experimentos  en  Ensayos  de  Bernoulli  de  forma  conveniente,  de  acuerdo  a lo  que  se  desea 
determinar. 


4.5  Modelo  Probabilístico  Binomial 

El  modelo  binomial  se  ajusta  a muchas  situaciones  prácticas.  Para  presentarlo  será 
utilizado  el  siguiente 

Ejemplo  4:  Un  vendedor  de  semillas  de  cierta  especie  garantiza  un  poder  germinativo  del  90%. 
Una  persona  compra  un  paquete  de  4 semillas  y las  siembra  en  una  maceta.  ¿Cuál  es  la 
probabilidad  de  que  germinen  3,  y de  que  germinen  por  lo  menos  2? 

Solución:  En  este  caso 

E.  “sembrar  4 semillas” 

Este  experimento  se  puede  pensar  como  4 repeticiones  del  Ensayo  de  Bernoulli  definido  en  el 
Ejemplo  3,  luego  el  espacio  muestral  asociado  a él  es: 

S={  (G,G,G,G),  (G,G,G,NG),  (G,G,NG,G),  (G,NG,G,G),  (NG,G,G,G),  (G,G,NG,NG), 

(G,NG,NG,G),  (NG,NG,G,G),  (NG,G,G,NG),  (NG,G,NG,G),  (G,NG,G,NG),  (G,NG,NG,NG), 
(NG,G,NG,NG),  (NG,NG,G,NG),  (NG,NG,NG,G),  (NG,NG,NG,NG) } 

Considerando  que  el  suceso  éxito  es  “la  semilla  germina”  se  define  la  variable 
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X:  "Número  de  semillas  que  germinan  de  un  paquete  de  4"  cuyo  recorrido  es  R(X)=0,1,2,3,4. 
La  probabilidad  de  que  germinen  3 semillas  es: 

P(X=3)  = P((G,G,G,NG))  + P((G,G,NG,G))  + P((G,NG,G,G))  + P((NG,G,G,G)) 

= P(G).  P(G).  P(G).  P(NG)  + ...  + P(NG).  P(G).  P(G).  P(G) 

= 0.9  • 0.9  • 0.9  • 0.1  + ...  + 0.1  • 0.9  • 0.9  • 0.9 
= 4 • 0.93  • 0.1 
= 0.2916 


Este  resultado  es  válido  bajo  el  supuesto  de  que  la  germinación  de  una  semilla  en  una 
repetición  cualquiera  es  independiente  de  la  germinación  de  otra  semilla. 

La  probabilidad  encontrada  significa  que  si  se  sembraran  muchas  veces  4 semillas, 
aproximadamente  en  el  29  % de  los  casos  3 semillas  germinan. 


En  la  siguiente  tabla  se  presenta  la  distribución  de  probabilidades  de  la  variable  X: 
Número  de  semillas  que  germinan  de  un  paquete  de  4 semillas. 


Tabla  2:  Distribución  de  probabilidades  del  Número  de  semillas  que  germinan 


x¡ 

Elementos  de  S 

Pi  = P(X=xO 

0 

(NG,NG,NG,NG) 

P(X  = 0)  = 0.14=  0.0001 

1 

(G,NG,NG,NG)  (NG,G,NG,NG) 
(NG,NG,G,NG)  (NG,NG,NG,G) 

P(X=  1)  = 4 -0.9  -0.13=  0.0036 

2 

(G,G,NG,NG)  (G,NG,NG,G) 

(NG,NG,G,G)  (NG,G,G,NG) 

(NG,G,NG,G)  (G,NG,G,NG) 

P(X  = 2)  = 6 • 0.92  • 0. 12  = 0.0486 

3 

(G,G,G,NG)  (G,G,NG,G) 

(G,NG,G,G)  (NG,G,G,G) 

P(X  = 3)  = 4 • 0.92  • 0.1  = 0.2916 

4 

(G,G,G,G) 

P(X  = 4)  = 0.94=  0.6561 

En  base  a los  datos  de  la  tabla  la  probabilidad  de  que  por  lo  menos  2 semillas  germinen  es: 

P(X  > 2)  = P(X=2)  + P(X=3)  + P(X=4)  = 0.0486  + 0.2916  + 0.6561  = 0.9963 

Esta  probabilidad  indica  que  si  se  sembraran  muchas  veces  4 semillas,  aproximadamente  en  el 
99%  de  los  casos  hay  2 o más  semillas  que  germinan. 

Los  valores  de  la  variable  X y sus  respectivas  probabilidades  pueden  ser  representados 
en  un  diagrama  de  barras  tal  como  se  hizo  para  la  variable  X¡. 

Las  características  numéricas  en  este  caso  son: 

1.  E(x)=¿xipi  =3.6,  valor  que  se  interpreta  de  la  siguiente  manera:  si  se  sembraran 

i=l 

muchas  veces  4 semillas,  aproximadamente  germinan  entre  3 y 4 semillas. 

La  expresión  "si  se  sembraran  4 semillas  muchas  veces"  significa  que  el  experimento  Binomial 
"sembrar  4 semillas"  se  repite  muchas  veces. 

2. Var(x)  = ¿(xi-3.6)2p1  =0.36 

i=l 

3.  Des(X)=0.6. 
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El  experimento  definido  en  el  Ejemplo  4 tiene  las  siguientes  características: 

• El  experimento  E¡  :“elegir  una  semilla  y sembrarla”  tiene  dos  resultados  posibles:  la  semilla 
germina  o la  semilla  no  germina  (Ensayo  de  Bernoulli). 

• El  experimento  E¡  se  realiza  un  número  fijo  de  veces,  4. 

• Los  resultados  de  los  ensayos  E¡  son  independiente  entre  sí,  pues  el  hecho  que  una  semilla 
germine  o no  germine  no  Implica  que  otra  germine  o no  germine. 

• La  probabilidad  de  que  una  semilla  germine  es  0.90  (el  poder  germinativo  de  la  semilla  es 
del  90%)  se  mantiene  Igual  cada  vez  que  se  siembra  una  semilla. 

Experimentos  como  éste  (elegir  4 semillas  y sembrarlas)  que  cumplen  con  las 
características  mencionadas,  se  ajustan  al  Modelo  Binomial. 

Definición  9:  Se  dice  que  un  experimento  aleatorio  se  ajusta  al  Modelo  Binomial  si  posee  las 
siguientes  características: 

1.  Consta  de  n repeticiones  del  Ensayo  de  Bernoulli. 

2.  Los  resultados  de  las  repeticiones  del  Ensayo  de  Bernoulli  son  independientes  entre  sí  (el 
resultado  de  una  repetición  no  Influye  en  el  de  ninguna  otra). 

3.  La  probabilidad  del  éxito  p en  cada  repetición  del  ensayo  permanece  constante  (no  cambia 
de  una  repetición  a otra). 

Cuando  el  experimento  consiste  en  realizar  extracciones  de  una  población  pequeña, 
para  que  se  cumplan  las  características  2 y 3,  dichas  extracciones  deben  ser  realizadas  con 
reposición. 

Definición  10:  Los  parámetros  del  Modelo  Binomial  son  n (número  de  repeticiones  del  Ensayo 
de  Bernoulli)  y p (probabilidad  de  éxito). 

Para  el  Ejemplo  4 los  parámetros  son  n=4  yp=0.90. 

Cada  valor  de  n y p Identifican  un  Modelo  Binomial  particular  (por  ser  los  parámetros  de 
la  distribución),  por  lo  tanto  existen  infinitos  Modelos  Binomlales  dado  que  n puede  tomar 
cualquier  valor  en  el  conjunto  de  los  números  naturales  yp  cualquier  número  real  entre  0 y 1. 

Definición  11:  La  variable  aleatoria  binomial  Xb  cuenta  el  "número  de  éxitos  en  las  n 
repeticiones  del  Ensayo  de  Bernoulli". 

El  conjunto  de  valores  que  asume  la  variable  Xb  es  R(Xb)  = 0, 1 ,2,3,...,n. 

Que  la  variable  Xb  tome  el  valor  0 significa  que  no  hubo  éxitos  en  las  n repeticiones  del 
Ensayo  de  Bernoulli  y que  tome  el  valor  n significa  que  hubo  n éxitos  en  las  n repeticiones  del 
ensayo. 


Para  el  Ejemplo  4 la  variable  aleatoria  Xb:  "Número  de  semillas  que  germinan  entre  las 
4 semillas  sembradas"  es  una  variable  aleatoria  binomial  y R(Xb)  = 0, 1,2,3, 4. 

Para  determinar  la  probabilidad  de  que  la  variable  Xb  asuma  el  valor  k,  se  debe  en 
primer  lugar  dar  la  siguiente 


Definición  12:  El  número  combinatorio 


n 

k 


es  la  cantidad  de  subconjuntos  con  k 


elementos  que  pueden  obtenerse  de  un  conjunto  de  n elementos.  En  símbolos 


Variables  A.leatorias  Discretas 


n ! 

k ! ( n - k )! 

donde  n!  = n • (n-1)  • (n-2)  *...  • 2 • 1 es  el  factorial  del  número  natural  n (número  que  se 
obtiene  al  realizar  el  producto  de  los  primeros  n números  naturales).  Por  convención  se  define 
0!  = 1. 


Se  define  a continuación  la  forma  de  calcular  la  probabilidad  buscada. 

Definición  13:  La  probabilidad  de  obtener  k éxitos  en  las  n repeticiones  del  Ensayo  de 
Bernoulll  es: 

P(Xb=k)  = ^pkqn-k  con  k = 0,l,2,...,n  (4.1) 

De  acuerdo  a la  Definición  3,  £P(Xb=k)=X  [íMpkqn"k=l 

k=0  k=0  VKy 

Para  el  Ejemplo  4,  usando  la  Definición  13,  la  probabilidad  de  que  germinen  2 de  las  4 
semillas  es: 

P(Xb  =2)  = (^|0.902  0.104'2  =0.0486 
donde  el  número  combinatorio  que  aparece  en  la  fórmula  anterior  es: 

(f]  = = 6 

V2)  2!  (4  - 2)! 

Este  resultado  coincide  con  el  número  de  sucesos  elementales  que  contienen  dos 
éxitos  (G)  y dos  fracasos  (NG)  en  la  Tabla  2.  Por  su  parte  la  probabilidad  coincide  con  la 
presentada  en  dicha  tabla. 

Ejemplo  5:  En  la  situación  del  ejemplo  anterior  se  podría  haber  definido  la  siguiente  variable 
aleatoria  binomlal 

Xb  : “Número  de  semillas  que  no  germinan  entre  las  4 sembradas”. 

o sea  que  en  este  caso  el  suceso  éxito  es  “la  semilla  no  germina”  y por  lo  tanto 

p=P(Éxito)=P(La  semilla  no  germina)=0.10. 

Los  parámetros  del  modelo  probabilístico  asociado  a la  variable  Xb  son  n=4  yp=0.10,  y los 
valores  de  la  variable  son  0,1, 2, 3, 4. 

Ahora  debe  notarse  que  en  un  paquete  de  4 semillas,  el  suceso  “1  semilla  no  germina” 
es  equivalente  al  suceso  “3  semillas  germinan”.  Por  lo  tanto  la  probabilidad  de  estos  dos 

sucesos  es  la  misma,  es  decir  P(Xb  =1)  = P(Xb=3)  = 0.2916. 

Esto  lleva  a concluir  que  la  probabilidad  no  varía  al  cambiar  el  éxito,  usando 
correctamente  los  elementos  que  Intervienen  para  su  cálculo. 


-69- 


Introducción  a la  Estadística  Para  las  Ciencias  de  la  Vida 


Para  un  valor  fijo  de  n se  tiene  la  distribución  de  probabilidades  de  una  variable 
aleatoria  binomial,  como  se  muestra  en  los  siguientes  diagramas  de  barras. 

si  p<0.50  si  p=0.50  si  p>0.50 


4.5.1.  Características  numéricas 

A continuación  se  muestran  las  características  numéricas  de  la  variable  aleatoria 
binomial.  Para  cada  una  de  ellas,  el  resultado  final  es  presentado  sin  demostración,  ya  que  la 
misma  requiere  de  algunos  conceptos  que  este  texto  no  contempla  (Meyer,  P.  1992).  Luego: 

1.  E(xJ=¿kP(Xb=k)=tkí”Wl=n.p 

k=0  k=0  V^y 

2.  Var(Xb)  = n.p.q 

3.  Des(Xb ) = ^/n.p.q 


4.5.2.  Uso  de  Tabla 

Para  calcular  las  probabilidades  de  que  una  variable  aleatoria  binomial  tome  ciertos 
valores  se  dispone  de  una  tabla  para  distintos  valores  de  n y p. 

La  Tabla  A del  Apéndice  corresponde  a la  distribución  binomial.  En  la  primera  fila  se 
muestran  los  valores  de  p=P(Éxito),  en  la  primera  columna  los  valores  de  n y en  la  segunda 
columna  los  valores  de  la  variable  X correspondientes  a cada  valor  de  n.  Para  valores 
determinados  de  n y p,  la  probabilidad  de  que  ocurran  k éxitos  está  dada  por  el  número  que  se 
encuentra  en  la  Intersección  de  la  fila  y columna  correspondientes. 


4.6  Modelo  Probabílistico  Hipergeométrico 

Este  modelo  describe  experimentos  que  consisten  en  una  secuencia  de  extracciones 
(Ensayos  de  Bernoulli)  de  una  población  finita,  sin  reposición.  Una  aplicación  de  este  modelo  se 
presenta  en  el  siguiente 

Ejemplo  6:  En  un  vivero  hay  100  plantines  de  una  misma  especie,  de  los  cuales  se  sabe  que 
40  están  atacados.  Se  extraen  3 plantines  al  azar,  sin  reposición.  Se  desea  calcular  la 
probabilidad  de  obtener  dos  plantines  atacados  entre  los  3 extraídos. 
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Solución: 

El  experimento  E.  “Extraer  3 plantines  sin  reposición”. 

La  variable  aleatoria  X:  Número  de  plantines  atacados  entre  los  3 extraídos. 

R(X)=0,  1,2,3. 


Si  se  observan  las  características  de  este  experimento,  se  ve  que  tiene  mucho  en 
común  con  un  experimento  que  se  ajuste  al  Modelo  Binomial;  lo  único  que  lo  diferencia  de 
aquel  es  que  aquí  las  n repeticiones  del  Ensayo  de  Bernoulli  (extracciones)  son  sin  reposición, 
luego  la  probabilidad  de  éxito  no  es  constante  y las  repeticiones  no  son  independientes. 

Cuando  un  experimento  consiste  en  extraer  sin  reposición  n elementos  de  una 
población  finita  de  N elementos  de  los  cuales  r son  éxitos,  se  ajusta  al  Modelo  Probabilístico 
Hipergeométrico. 

Definición  14:  Los  parámetros  de  esta  distribución  son  N (número  total  de  elementos  de  la 
población),  n (número  de  extracciones  o ensayos  a realizar)  y r (número  de  éxitos  en  la 
población). 

Definición  15:  Una  variable  aleatoria  hipergeométrica  Xh  cuenta  el  número  de  éxitos  en  n 
extracciones  sin  reposición  (Ensayos  de  Bernoulli). 

El  conjunto  de  valores  que  asume  Xh  es  R(Xh)=0,  1,  2,  3,...,  n. 

Definición  16:  Sea  Xh  una  variable  aleatoria  con  distribución  hipergeométrica.  La  probabilidad 
de  obtener  k éxitos  en  las  n extracciones  sin  reposición  es 


P(Xh=k)  = 


r N-r 

kJin-k 

Ñ 

n 


(4.2) 


con  k=0,  1,  2,  3,...,  n (si  n < r)  o k=0,  1,  2,  3,...,  r (si  n > r)  porque  no  pueden  lograrse  más 
éxitos  de  los  que  hay  en  todo  el  conjunto. 


De  acuerdo  a la  Definición  3,  £ P(Xh  = k)  = £ 


N-r 

n-k 


= 1 


Para  el  Ejemplo  6 los  parámetros  son  N=100,  r=40,  n=3  y Xh:  Número  de  plantines 
atacados  entre  los  3 extraídos.  Entonces  la  probabilidad  de  que  2 plantines  estén  atacados  es 


P(Xh 


0.2894 


Este  valor  indica  que  si  se  extrajeran  3 plantines  muchas  veces  de  una  población  de  100 
plantines  de  los  cuales  40  están  afectados,  en  aproximadamente  el  29  % de  los  casos  2 están 
atacados. 
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4.6.1  Características  Numéricas 


Definiendo  p = — como  Ia  proporción  de  éxitos  en  la  población  y q=l— p como  la 
proporción  de  fracasos  en  la  población,  se  definen 

1-  E(Xh)  = n.p 

. N-n 

2.  Var(X>1)  = .n.p.q 

h N-l 

_ . ¡N-n 

3.  Des(Xh)  = n.p.q 

Para  llegar  a estos  resultados  basta  reemplazar  en  la  definición  de  las  características 
numéricas  de  una  variable  aleatoria  discreta  la  P(Xh=k)  cuya  expresión  está  dada  en  (4.2). 


4.6.2  Relación  entre  Modelo  Hipergeométrico  y Modelo  Binomial 

a)  Cuando  el  tamaño  de  la  muestra  es  pequeño  con  respecto  al  tamaño  de  la  población,  la 
probabilidad  de  obtener  éxito  permanecerá  aproximadamente  Igual  prueba  a prueba,  sin 
Importar  los  resultados  de  las  pruebas  anteriores. 

Por  ejemplo  si  se  tienen  10000  plantines  de  los  cuales  6000  están  atacados  y se  extraen  n 
plantines  sin  reposición  (N=10000,  r=6000): 

. r 6000 

P(  primer  plantín  esté  atacado)  = — = = U.o 

N 10000 

r-l  5999 

P(segundo  plantín  esté  atacado/primer  plantín  está  atacado)  — — — - = -^^  = 0.59999  = 0.6 
P(segundo  plantín  esté  atacado/primer  plantín  no  está  atacado)  = — — j = gggg  = 0.60006  = 0.6 


P(tercer  plantín  esté  atacado/primero  y segundo  atacados) 


5998 

9998 


= 0.5999  = 0.6 


P(tercer  plantín  esté  atacado/primero  atacado  y segundo  no  atacado  o primero  no  atacado  y segundo 

5999 

atacado)  = — — — = 0.60002  = 0.6 

9998 

P(tercer  plantín  esté  atacado/primero  y segundo  no  atacados)  = ggg^  = 0.60001  = 0.6 

Luego  en  este  caso  se  puede  asumir  que  la  variable  en  estudio  se  ajusta  al  Modelo 
Probabilístico  Binomial. 

b)  Cuando  el  tamaño  de  muestra  es  relativamente  grande  con  respecto  al  tamaño  de  la 

r 

población,  la  probabilidad  de  éxito  en  la  primera  extracción  — diferirá  considerablemente  de  la 

r — 1 r 

probabilidad  de  éxito  en  la  segunda  extracción  — — - o — — - . Por  ejemplo  para  N=10  y r=6, 


la  probabilidad  de  que  el  primer  plantín  esté  atacado  es  — = 0.6,  en  tanto  que  la  probabilidad 
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de  que  el  segundo  plantín  esté  atacado  dado  que  el  primero  está  atacado  es  — = 0.55  mientras 
que  la  probabilidad  de  que  el  segundo  plantín  esté  atacado  dado  que  el  primero  no  está 
atacado  es  ^-  = 0.66.  Para  la  tercera  extracción  las  probabilidades  son  0.5,  0.625  y 0.75, 
respectivamente. 

En  este  caso  la  probabilidad  de  éxito  difiere  considerablemente  de  un  ensayo  a otro  y 
por  lo  tanto  no  se  las  puede  suponer  ¡guales  en  cada  repetición,  por  lo  que  el  Modelo 
Probabilístlco  Hlpergeométrlco  parece  el  adecuado. 


4.7  Modelo  Probabilístico  de  Poisson 

Otro  modelo  muy  utilizado  para  variables  aleatorias  discretas  es  el  Modelo  de  Poisson. 
Para  describirlo  se  tomará  como  base  el  siguiente 

Ejemplo  7:  La  deficiencia  en  el  número  de  glóbulos  rojos  en  la  sangre  puede  determinarse 
mediante  el  examen  microscópico  de  una  muestra  de  sangre.  Suponiendo  que  un  pequeño 
volumen  de  sangre  contiene  en  promedio  10  glóbulos  rojos  para  personas  normales,  ¿cuál  es 
la  probabilidad  de  que  una  muestra  de  sangre  de  una  persona  normal  contenga  7?  ¿y  de  que 
contenga  7 glóbulos  rojos  o menos?. 

Solución: 

El  experimento  aleatorio  E.  “Sacar  una  muestra  de  sangre”. 

La  variable  aleatoria  X:  Número  de  glóbulos  rojos  en  una  muestra  de  sangre. 

R(X)=0,  1,2,3,... 

Observar  las  siguientes  características  de  este  experimento: 

1.  No  se  puede  fijar  el  número  máximo  de  glóbulos  rojos  que  pueden  aparecer  en  la  muestra. 
Lo  que  sí  se  sabe  es  el  número  promedio  de  glóbulos  rojos  para  una  muestra  de  sangre  de 
una  persona  normal ; en  este  caso  es  10  y se  lo  denomina  X. 

2.  Se  puede  determinar  el  número  de  glóbulos  rojos  que  hay  (número  de  éxitos)  en  la  muestra 
de  sangre,  pero  no  el  número  de  glóbulos  rojos  que  no  hay  (número  de  fracasos)  en  la 
muestra  de  sangre. 

Las  características  1 y 2 indican  claramente  que  la  variable  X no  sigue  el  modelo 
binomlal,  por  lo  tanto  para  calcular  las  probabilidades  pedidas  se  necesita  buscar  un  modelo 
probabilístlco  adecuado  para  esta  situación. 


4.7.1  Supuestos  del  Modelo  Poisson 

Algunas  de  las  características  (o  condiciones)  bajo  las  cuales  se  puede  esperar  que  un 
experimento  pueda  serdescrlpto  por  el  modelo  de  Poisson  son: 

1.  Los  sucesos  que  ocurren  en  un  intervalo  de  tiempo  (o  región  del  espacio  o volumen)  son 
independientes  de  los  que  ocurren  en  cualquier  otro  intervalo  de  tiempo  (área  o volumen) 
independientemente  de  como  se  elige  el  intervalo. 
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2.  La  probabilidad  de  que  un  suceso  se  presente  es  proporcional  a la  longitud  del  intervalo  de 
tiempo  (volumen  o reglón  del  espacio). 

3.  La  probabilidad  de  que  dos  o más  sucesos  se  presenten  en  un  intervalo  de  tiempo  muy 
pequeño  (área  o volumen)  es  despreciable,  por  esta  razón  es  que  suele  llamarse  ley  de  los 
sucesos  raros. 

Sobre  experimentos  que  verifiquen  estas  condiciones  pueden  definirse  variables 
aleatorias  como  las  siguientes: 

* Número  de  bacterias  en  un  cultivo  dado. 

* Número  de  plantas  de  musgo  sobre  área  determinada  de  una  colina. 

* Número  de  parásitos  que  habitan  en  un  huésped. 

* Número  de  casos  de  gripe  manifestados  en  una  ciudad  durante  una  semana. 

“ Número  de  mutaciones  ocurridas  en  una  cadena  genética  en  el  Intervalo  de 

un  mes. 


Para  todos  los  ejemplos  anteriores  la  variable  cuenta  el  número  de  éxitos  en  intervalo 
de  tiempo,  área  o volumen. 

Definición  17:  El  parámetro  del  modelo  de  Polsson  es  A que  Indica  el  número  promedio  de 
éxitos  en  cada  intervalo  de  tiempo,  área  o volumen. 

Definición  18:  La  variable  aleatoria  de  Poisson  Xp  cuenta  el  número  de  éxitos  en  un  intervalo 
de  tiempo,  área  o volumen. 

El  conjunto  de  valores  que  asume  Xp  es  R(Xp)=0,  1,  2,  3,... 

Definición  19:  Sea  Xp  una  variable  aleatoria  con  distribución  de  Polsson.  La  probabilidad  de 
obtener  k éxitos  en  un  Intervalo  de  tiempo,  área  o volumen  es 

P(xp=k)=^-  con  k=0,  1,2,3,...  (4.3) 

K! 


co  / \ 00  e ^ lk 

5„3  ZP(xt=k)=Z— — = 1 


De  acuerdo  a la  Definición  _ 

k=0  k=0  k! 

Continuando  el  Ejemplo  7 resulta  P(Xp  = 7)  = 


107  »e~10 
7! 


= 0.09008 


Este  valor  indica  que  si  se  extrajeran  muchas  muestras  de  sangre  aproximadamente  el  9 % de 
ellas  tienen  7 glóbulos  rojos. 


P(XP<7)=  I 


l 10k.e"10 


k=o  k! 


= 0.22022 


Este  valor  Indica  que  si  se  extrajeran  muchas  muestras  de  sangre  aproximadamente  el  22  % de 
ellas  tienen  7 glóbulos  rojos  o menos. 


4.7.2  Características  Numéricas 

Las  características  numéricas  de  una  variable  aleatoria  discreta  Polsson  son: 
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1 ■ E(XP)=A, 

2.  Var(Xp)=  X 

3.  Des(Xp)=  Vk 

Para  llegar  a estas  Igualdades  basta  reemplazar  en  la  definición  de  las  características 
numéricas  de  una  variable  aleatoria  discreta  la  expresión  (4.3). 

En  la  variable  Polsson  la  esperanza  y la  varlanza  coinciden  con  el  valor  del  parámetro 
de  la  distribución. 


4.7.3  Relación  entre  Modelo  Binomial  y Modelo  Poisson 

En  las  aplicaciones  típicas  del  modelo  Binomial  el  número  de  veces  que  se  repite  el 
Ensayo  de  Bernoulli  (n)  es  relativamente  pequeño,  pero  es  frecuente  que  se  presenten 
situaciones  en  que  se  aplica  la  distribución  binomial  para  un  valor  de  n grande  y p muy 
pequeño.  En  este  caso  el  cálculo  de  probabilidad  para  un  valor  de  variable  dado  es  difícil  de 
determinar  manualmente,  por  lo  que  se  encontró  una  forma  aproximada  de  resolverla  usando  el 
modelo  de  Polsson  (Meyer,  P.1992).  Se  puede  demostrar  que:  P(Xb=k)  = P(Xp=k),  o sea 

p(xb  = k)  = (jJ)p  Y~k  = ■ con  X = n • p 

Ejemplo  8:  SI  en  la  fabricación  de  piezas  bajo  control  se  sabe  que  la  probabilidad  de  que 
aparezca  una  pieza  defectuosa  es  p=0.01  y se  reúnen  las  piezas  en  cajas  de  n=200  unidades, 
para  calcular  la  probabilidad  de  obtener  10  piezas  defectuosas  es  conveniente  usar  una 
aproximación  debida  a Polsson 

Entonces 

~10  -2 

0.01‘°0.99190  = — — = 0.000037 , con  X = 200  • 0.01  = 2 

10! 


4.7.4  Uso  de  tabla 

En  el  Apéndice  se  encuentra  la  Tabla  B correspondiente  a la  distribución  de  Polsson. 
En  la  primera  columna  de  la  tabla  se  muestran  diferentes  valores  de  X y en  la  primera  fila 
distintos  valores  de  X.  Luego  para  un  valor  determinado  de  X,  la  probabilidad  de  que  ocurran  k 
éxitos  está  dada  por  el  número  que  se  encuentra  en  la  intersección  de  la  fila  y columna 
correspondiente. 


P(X,=10)  = ^“° 


4.8  Modelo  Probabilístico  Geométrico 

El  Modelo  Probabilístico  Geométrico  describe  experimentos  que  son  una  secuencia  de 
Ensayos  de  Bernoulli  independientes  con  parámetro  p hasta  obtener  1 éxito.  Para  estudiar  este 
modelo  se  presenta  el  siguiente 
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Ejemplo  9:  Se  sabe  que  en  una  parcela  el  20%  de  las  plantas  están  atacadas,  y se  desea 
calcular  la  probabilidad  de  obtener  la  primera  planta  atacada  en  la  tercera  extracción. 

Solución: 

El  experimento  es  E.  “extraer  sucesivamente  una  planta  de  una  parcela  hasta  obtener  una 
planta  atacada”. 

La  variable  aleatoria  X:  Número  de  extracciones  necesarias  hasta  que  salga  una  planta 
atacada. 

R(X)=1,  2,  3,  ... 

El  experimento  no  responde  a ninguno  de  los  descriptos  anteriormente,  aunque  tiene 
algunas  características  en  común  con  algunos  de  ellos.  Para  calcular  las  probabilidades  sobre 
variables  como  ésta,  se  describe  un  nuevo  modelo  probabilístlco. 

Cuando  un  experimento  consiste  en  repeticiones  independientes  de  un  Ensayo  de 
Bernoulli  hasta  que  ocurra  el  primer  éxito,  se  dice  que  se  ajusta  a un  Modelo  Geométrico. 

Definición  20:  El  parámetro  del  Modelo  Geométrico  es  p (probabilidad  de  éxito). 

Definición  21:  La  variable  aleatoria  geométrica  Xg  cuenta  el  número  de  ensayos  requeridos 
hasta  que  sale  el  suceso  éxito  por  primera  vez. 

El  conjunto  de  valores  que  asume  es  R(Xg)=l,  2,  3,.... 

Definición  22:  Sea  Xg  una  variable  aleatoria  con  distribución  geométrica.  La  probabilidad  de 
que  se  realicen  k ensayos  hasta  obtener  el  suceso  éxito  por  primera  vez  es 

P(Xg=k)  = qk_1  • p con  k=l,  2,  3,...  (4.4) 

Donde  q es  la  probabilidad  de  fracaso  en  cada  repetición  (igual  que  en  la  distribución 
binomlal). 

Retomando  el  Ejemplo  9 la  probabilidad  de  obtener  la  primera  planta  atacada  en  la 
tercera  extracción  es 

P(Xg=3)  =(  1-0.20)3'1  • 0.20  = 0. 128 

Este  valor  indica  que  si  se  realiza  muchas  veces  el  experimento  de  extraer  plantas, 
aproximadamente  en  un  13  % de  los  casos,  saldrá  la  primera  atacada  en  la  tercera  extracción. 


4.8.1  Características  Numéricas 

1-  E(X  ) = — 

P 

2.  Var(Xg)  = 4 

r 

3.  Des(X)=  4 

\P~ 
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Para  determinar  cada  una  de  ellas  basta  reemplazar  en  la  definición  de  las 
características  numéricas  de  una  variable  aleatoria  discreta  la  P(Xg=k). 


4.9  Modelo  Probabilístico  Binomial  Negativo 

El  Modelo  Probabilístico  Binomial  Negativo  describe  experimentos  que  son  una 
secuencia  de  Ensayos  de  Bernoulli  independientes  con  parámetro  p,  hasta  obtener  r éxitos. 
Para  describir  este  modelo  se  presenta  el  siguiente 

Ejemplo  10:  Sabiendo  que  la  probabilidad  de  que  una  semilla  esté  afectada  es  0.40  se  desea 
calcular  la  probabilidad  de  realizar  cinco  extracciones  para  obtener  tres  semillas  afectadas. 

Solución: 

El  experimento  E.  “Extraer  semillas  en  forma  sucesiva  hasta  obtener  tres  afectadas”. 

La  variable  X=  Número  de  extracciones  necesarias  hasta  que  salgan  3 semillas  afectadas. 
R(X)=3,  4,  5, .... 

Cuando  un  experimento  consiste  en  repeticiones  independientes  de  un  Ensayo  de 
Bernoulli  hasta  que  ocurran  r éxitos,  se  dice  que  se  ajusta  a un  Modelo  Binomial  Negativo. 


Definición  23:  Los  parámetros  del  Modelo  Binomial  Negativo  son  r y p,  que  representan  el 
número  de  éxitos  y la  probabilidad  de  éxito  respectivamente. 


Definición  24:  La  variable  aleatoria  Binomial  Negativa  Xbn  cuenta  el  número  de  ensayos 
requeridos  hasta  que  sale  el  suceso  éxito  r veces. 

El  conjunto  de  valores  que  asume  es  R(Xbn)=r,  r+ 1 , 


Definición  25:  Sea  Xbn  una  variable  aleatoria  con  distribución  binomial  negativa.  La 
probabilidad  de  que  se  realicen  k ensayos  hasta  obtener  r éxitos  es 


P(Xbn  = k)  = 


k-1 

r - 1 


Pr  qk_r 


con  k=r,  r+1,  ...  (4.5) 


Retomando  el  Ejemplo  10  la  probabilidad  realizar  cinco  extracciones  para  obtener  tres 
semillas  afectadas. 


P(Xbn  = 5)  = í ~ ] (0.40)3(0.60)5”3  =0.13824 

4 


Este  valor  indica  que  si  se  realiza  muchas  veces  el  experimento  de  extraer  semillas, 
aproximadamente  en  un  14  % de  los  casos,  saldrá  la  tercera  semilla  afectada  en  la  quinta 
extracción. 


4.9.1.  Características  numéricas 

1.  E(Xbn)  = — 

P 
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2.  Var(Xbn)  = -^a 
P 


3.  Des(Xbn) 


Para  determinar  cada  una  de  ellas  basta  reemplazar  en  la  definición  de  las 
características  numéricas  de  una  variable  aleatoria  discreta  la  P(Xbn=k). 

A continuación  se  muestra  un  cuadro  resumen  donde  se  presentan  los  modelos 
probabilístlcos  y sus  características. 


Tabla  3:  Modelos  Probabilísticos  para  variables  Discretas  y sus  características 


Modelo 

Parámetros 
del  Modelo 

Variable 

Características  Numéricas 

Esperanza  Varianza 

Bernoulli 

P 

Xber:  Número  de 
éxitos. 

E(Xber)=P  Var(XBER)-p*q 

Blnomlal 

nyp 

Xb:  Número  de 

éxitos  en  las  n 
repeticiones. 

E(Xb)=n*p  Var(Xb)=  n-p-q 

Hlpergeométrlco 

N,  n y r 

Xh:  Número  de 

éxitos  en  las  n 
repeticiones. 

E(Xh)=n*p  V ar(Xb)=  — — — *n*p*q 

N-l 

p=r/N 

Polsson 

X 

Xp:  Número  de 

éxitos  en  un  cierto 
Intervalo. 

E(XP)=A,  Var(Xp)=A 

Geométrico 

P 

Xg:  Número  de 

ensayos  hasta  que 
sale  el  primer  éxito. 

E(xJ=i  Var(xg)=^ 

Blnomlal 

Negativo 

ryp 

Xbn:  Número  de 

ensayos  hasta  que 
sale  el  r-éslmo  éxito. 

E(xJ  = - Var(Xb„)  = Xr 

P P‘ 

Ejercicios  de  Aplicación 
1. 

Se  lanzan  dos  dados  balanceados  y homogéneos  y se  define  la  variable  aleatoria 
“suma  de  los  números  aparecidos  en  las  caras  superiores".  Hallar: 

a)  la  distribución  de  probabilidades  de  la  variable  aleatoria  definida. 
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b)  el  valor  de:  i)  P(X<1).  I¡)P(X>3). 


Una  urna  contiene  5 fichas:  3 blancas  y 2 azules.  Se  realiza  el  experimento  “extraer  una 
muestra  de  tamaño  3 con  reposición”  y se  define  la  variable  aleatoria  “número  de  fichas 
blancas  extraídas”. 

a)  Describir  el  espacio  muestral  asociado  al  experimento  aleatorio. 

b)  Asociar  a cada  resultado  posible  del  experimento  el  valor  asignado  por  la  variable 
aleatoria  definida. 

c)  Hallar  la  distribución  de  probabilidades  de  la  variable  aleatoria. 

d)  Rehacer  el  inciso  c)  para  el  experimento  “extraer  una  muestra  de  tamaño  3 sin 
reposición”,  con  la  misma  variable  aleatoria. 


Para  una  inspección  sanitaria  se  seleccionan  10  cerdos  al  azar  de  los  criaderos  de  la 
zona  mencionada  en  el  Ejercicio  11  del  Capítulo  anterior.  ¿Cuál  es  la  probabilidad  de 
que  la  mitad  de  los  cerdos  seleccionados  tengan  16%  o más  de  área  pulmonar 
afectada  por  neumonía?. 

a)  ¿Cuál  es  el  experimento  aleatorio  que  describe  el  enunciado  ? Indicar  un  elemento 
cualquiera  del  espacio  muestral  S.  Para  dicho  experimento: 

¡)  ¿Cuál  es  el  ensayo  de  Bernoulli  y cuáles  sus  resultados  posibles  ? 

¡i)  ¿Qué  significa  para  este  ejemplo  que  se  repita  un  número  fijo  de  veces  el  ensayo 
de  Bernoulli  ? 

m)  ¿Qué  significa  la  independencia  de  los  ensayos?. 

¡v)  ¿Cuál  es  la  probabilidad  del  éxito?  ¿Qué  significa  en  esta  situación  que  esta 
probabilidad  se  mantenga  constante  en  la  repetición  de  los  ensayos?. 

b)  ¿Qué  variable  asociaría  al  experimento? 

c)  Calcular  la  probabilidad  pedida,  suponiendo  que  el  experimento  es  binomial. 


A partir  de  la  información  suministrada  en  Ejercicio  8 del  capítulo  anterior  se  quiere 
hallar  la  probabilidad  de  que  de  un  total  de  6 descendientes  de  un  cruzamiento  de  gatos 
heterocigotas  se  obtengan  2 con  pelaje  manchado. 

a)  ¿Cuál  es  el  experimento  aleatorio  que  describe  el  enunciado?.  Detalle  al  menos  dos 
elementos  de  S.  ¿Se  ajusta  este  experimento  a un  Modelo  Binomial?.  ¿Por  qué?. 

b)  ¿Cuál  es  la  variable  que  debería  asociarse  al  espacio  muestral  de  tal  forma  que 
resulte  una  variable  aleatoria  binomial  ?. 

c)  ¿Cuáles  son  los  parámetros  del  modelo  en  esta  situación  ?.  ¿Qué  significan  ?. 

d)  Hallar  las  características  numéricas  de  la  variable  y dar  su  significado. 

e)  Calcular  la  probabilidad  requerida. 


Se  estima  que  el  90%  de  la  cosecha  de  papas  es  buena  encontrándose  en  estado  de 
putrefacción  las  restantes,  aunque  esto  no  puede  descubrirse  a menos  que  las  papas 
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se  corten  por  la  mitad.  Si  el  estado  de  putrefacción  no  se  contagia,  ¿cuál  es  la 
probabilidad  de  que  en  una  bolsa  de  12  haya  9 en  buen  estado?.  Justificar  la  respuesta 


La  probabilidad  de  que  un  animal  reciba  una  inyección  de  penicilina  y sufra  reacción 

desfavorable  es  de  0.10.  Suponiendo  que  9 animales  reciben  aplicaciones  de  este 

medicamento. 

a)  ¿Cuál  es  el  experimento  que  se  ajusta  al  modelo  blnomlal  y la  variable  aleatoria 
asociada? 

b)  Calcular  la  probabilidad  de  que: 

i)  todos  los  animales  sufran  reacción  desfavorable. 

ii)  6 sufran  reacción  desfavorable  y 3 no. 

iii)  por  lo  menos  4 sufran  reacción  desfavorable. 

iv)  a lo  sumo  2 sufran  reacción  favorable. 

c)  Realizar  una  representación  gráfica  de  la  distribución  de  probabilidades  de  la  variable 
aleatoria. 

d)  Calcular  las  características  numéricas  de  la  variable,  explicando  qué  información 
suministran  para  este  problema.  Establecer  relaciones  entre  los  valores  de  las 
características  numéricas  de  la  variable  y el  gráfico  construido  en  el  inciso  c). 

e)  ¿Cuál  es  el  número  esperado  de  animales  con  reacción  favorable?. 


7. 

Se  afirma  que  una  vacuna  es  eficaz  en  un  70%. 

a)  Hallar  la  probabilidad  de  que  de  10  Individuos  que  hayan  recibido  la  vacuna: 

i)  2 tengan  la  enfermedad. 

ii)  por  lo  menos  4 no  tengan  la  enfermedad. 

iii)  3 tengan  la  enfermedad  y 7 no. 

iv)  a lo  sumo  2 tengan  la  enfermedad. 

b)  Calcular  E(Xb)  y Var(Xb),  dando  su  significado  para  este  problema. 

c)  ¿Cuál  es  el  número  esperado  de  individuos  para  los  cuales  la  vacuna  no  fue  eficaz?. 


La  probabilidad  de  que  un  niño  esté  afectado  de  Hymenolepis  (enfermedad  parasitaria) 
en  ciertos  barrios  de  la  ciudad  de  Río  Cuarto  es  de  0.5.  A diez  niños  del  sector 
mencionado  se  le  realizan  los  análisis  correspondientes  y se  determina  “el  número  de 
niños  infectados  por  Hymenolepis”. 

a)  ¿Se  ajusta  la  experiencia  al  Modelo  Blnomlal?  ¿Cuál  sería  el  supuesto  del  modelo 
binomlal  que  podría  no  satisfacerse?.  ¿Por  qué? 

b)  Realizar  una  representación  gráfica  de  la  distribución  de  probabilidades  de  la 
variable  aleatoria  binomlal  correspondiente  a esta  situación. 

c)  Calcular  la  esperanza  y la  varlanza  de  la  variable,  dando  su  significado  para  esta 
situación.  Establecer  relaciones  entre  las  características  numéricas  y el  gráfico  de 
la  distribución  de  probabilidades  de  la  variable. 
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d)  Suponiendo  que,  en  lugar  de  0.5,  la  probabilidad  de  que  un  niño  esté  afectado  por 
el  parásito  es  de  0.1,  realizar  un  análisis  similar  al  efectuado  en  los  incisos 
anteriores. 

e)  Discutir  las  similitudes  y/o  diferencias  entre  los  gráficos  de  las  distribuciones  de 
probabilidad  construidos  en  uno  y otro  caso. 
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Objetivos: 

♦ Identificar  variables  aleatorias  continuas. 

♦ Reconocer  los  parámetros  de  las  distintas  distribuciones. 

♦ Establecer  relaciones  entre  distintas  distribuciones. 


5.1  Variables  Aleatorias  Continuas 

En  el  capítulo  anterior  se  trabajó  con  variables  aleatorias  discretas.  A continuación  se 
estudiarán  otro  tipo  de  variables  denominadas  variables  aleatorias  continuas.  Algunos  ejemplos 
de  este  tipo  de  variables  son: 

* tiempo  de  coagulación; 

* altura  de  las  personas; 

* ganancia  de  peso  de  animales; 

* rendimiento  de  un  cultivo; 

* tiempo  de  recuperación  de  cierta  enfermedad; 

* errores  de  medición  en  experimentos  científicos. 

Estas  variables,  tienen  la  particularidad  de  asumir  cualquier  valor  dentro  de  un  cierto 
intervalo  por  lo  que,  a diferencia  de  las  variables  discretas,  no  es  posible  asociarles  un  valor  de 
probabilidad  puntual  distinto  de  cero  a cada  valor  de  variable.  Para  aclarar  ideas  se  muestra  el 
siguiente 

Ejemplo  1:  Para  estudiar  el  comportamiento  del  peso  de  animales  recién  nacidos  de  la  raza 
Charoláis  se  realizó  el  siguiente  experimento  aleatorio  E.  “Se  extrae  al  azar  un  animal  recién 
nacido”. 


Se  sabe  que  todo  experimento  aleatorio  tiene  asociado  un  espacio  muestral.  En  este 
caso  no  se  pueden  enumerar  todos  los  elementos  de  dicho  espacio  (que  se  corresponden 
biunívocamente  con  los  valores  posibles  de  la  variable  peso)  y por  lo  tanto,  para  construir  la 
distribución  de  probabilidades  de  este  tipo  de  variables  se  va  a desarrollar  otro  método. 

Generalmente,  para  representar  las  frecuencias  de  una  variable  de  tipo  continuo  se 
utiliza  una  tabla  de  frecuencias  agrupadas,  lo  que  permite  construir  un  Histograma.  Éste 
consiste  de  una  serle  de  rectángulos  cuya  base  está  dada  por  la  longitud  del  intervalo  y cuya 
altura  es  la  frecuencia  absoluta  (como  se  presentó  en  el  Capítulo  1). 

Si  se  generan  muestras  de  tamaño  n de  una  variable  aleatoria  X,  para  cada  una  de 
ellas  es  posible  construir  la  tabla  de  frecuencias  agrupadas  con  intervalos  [ l¡_i  , l¡ ),  de  longitud 
l¡-l¡_i  = 1/n.  Es  decir: 
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Intervalo  Frecuencia  absoluta 


Ral 


Il=[lo,  li) 


fl 


Ij=[l¡-1,  li) 


In=[ln-1,  ln] 


fn 


Si  en  el  histograma  asociado  a la  tabla  se  traza  una  poligonal  que  pase  por  los  puntos 
(c¡,  f¡),  con  c¡  la  marca  de  clase  del  intervalo  I¡,  a medida  que  aumenta  el  tamaño  de  la  muestra, 
n,  esa  poligonal  se  hace  más  suave  y se  acerca  cada  vez  más  a un  función  f,  tal  como  se 
muestra  en  el  siguiente  gráfico. 

Frecuencia 

absoluta 


ah  X 

Gráfico  1:  Histograma  y poligonal  suavizada. 


Suponga  establecida  dicha  función  f y considere  un  intervalo  [a,b]  fijo.  Se  presentará  a 
continuación  la  justificación  intuitiva  del  cálculo  de  P(a<  X < b). 

Si  se  consideran  los  intervalos  I¡  cuya  unión  da  el  [a,b],  es  posible  ver  que  el  área  bajo 
la  gráfica  de  f y por  encima  del  intervalo  [a,b]  puede  ser  aproximada  por  la  suma  de  las  áreas 
de  los  rectángulos,  R¡ , de  base  el  intervalo  I¡  y altura  f¡ . Es  decir: 

Área  bajo  f y por  encima  del  intervalo  [a,b]  = 
suma  de  las  áreas  de  los  rectángulos  R¡  (5.1) 

Pero  por  otro  lado,  como  se  dijo,  cada  rectángulo  tiene  base  de  longitud  1/n  y altura  f¡  , de 
donde,  su  área  es  (base)  • (altura)=  (1/n)  • (f¡ ) = frecuencia  relativa  del  intervalo  I¡. 

Entonces  (5.1)  se  puede  reescribir  como: 

Area  bajo  f y por  encima  del  intervalo  [a,b]  = 
suma  de  las  frecuencias  relativas  de  los  intervalos  I¡  (5.2) 
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pero  esta  última  suma  no  es  otra  cosa  que  la  frecuencia  relativa  correspondiente  al  intervalo 
[a,b],  es  decir: 

Área  bajo  f y por  encima  del  intervalo  [a,b]  = 

frecuencia  relativa  del  intervalo  [a,b]  (5.3) 

Como  se  estableció  en  el  capítulo  3,  cuando  el  tamaño  de  la  muestra  crece,  la  frecuencia 
relativa  se  aproxima  a la  probabilidad,  entonces  : 

Frecuencia  relativa  del  intervalo  [a,b]  = P(a<  X < b)  (5.4) 

De  (5.3)  y (5.4),  cuando  n tiende  a infinito,  se  deduce  que: 

Área  bajo  f y por  encima  del  intervalo  [a,b]  = P(a<  X < b).  (5.5) 

La  función  f presentada  se  denomina  función  de  densidad. 

Definición  1:  Una  fundón  de  densidad  es  una  función  a valores  reales  (f:  91— >9?)  si  verifica  las 
siguientes  condiciones: 

1.  f(x)  > 0,  o sea  que  el  gráfico  de  la  función  está  por  encima  del  eje  de  las  abscisas  x,  para 
todos  los  valores  de  la  variable. 

2.  El  área  bajo  la  curva  función  f(x)  y por  encima  del  eje  x es  Igual  a 1. 


En  el  Gráfico  2 se  presentan  ejemplos  de  funciones  de  densidad,  si  el  área  bajo  la 
curva  es  1. 


Definición  2:  Sea  X es  una  variable  aleatoria,  es  decir  una  función  X:S  — »9t.  Se  dice  que  X 
es  una  variable  aleatoria  continua  si  tiene  asociada  una  función  de  densidad  f:  9?  — >91. 

Por  (5.5),  la  probabilidad  de  que  la  variable  X tome  valores  entre  a y b,  P(a<X<b),  se 
calcula  como  el  área  limitada  por  la  curva  de  la  función  de  densidad  f(x),  las  rectas  X=a,  X=b 
y el  eje  x,  tal  como  se  puede  observar  en  el  Gráfico  3. 


Gráfico  3:  Área  correspondiente  a P(a<X<b). 
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En  base  a esta  definición,  la  probabilidad  de  que  la  variable  aleatoria  continua  X tome 
un  valor  exactamente  igual  a c es  cero,  o sea  P(X=c)=0.  Esta  probabilidad  es  igual  al  área 
encerrada  por  dos  líneas  verticales  iguales,  y como  esa  área  no  existe  se  puede  decir  que  la 
probabilidad  correspondiente  a un  valor  puntual  es  cero. 

Una  forma  de  determinar  el  área  es  utilizando  algunas  herramientas  del  análisis 
matemático  que  no  son  muy  simples,  por  lo  cual  las  distribuciones  de  probabilidades  de  las 
variables  aleatorias  continuas  más  utilizadas  fueron  tabuladas.  Por  esto  cada  vez  que  se  desea 
calcular  una  probabilidad  se  puede  recurrir  a la  tabla  correspondiente. 


5.2  Características  Numéricas  de  una  variable  aleatoria  continua 

Las  características  numéricas  de  las  variables  aleatorias  continuas  son,  como  en  el 
caso  discreto,  la  Esperanza,  la  Varianza  y la  Desviación  Estándar. 

Para  determinar  cada  una  de  ellas  son  necesarias  algunas  herramientas  matemáticas 
que  no  están  al  alcance  de  este  texto,  por  lo  tanto  no  se  presentará  la  expresión  general  (como 
se  hizo  en  el  caso  discreto).  Para  cada  una  de  las  distribuciones  continuas  presentadas  a 
continuación  se  indicarán  los  valores  de  las  características  numéricas. 

Así  como  hay  varios  modelos  probabilísticos  asociados  con  variables  aleatorias 
discretas  (Binomial,  Poisson,  Geométrico,  etc.),  hay  varios  modelos  asociados  con  variables 
aleatorias  continuas.  En  este  texto  sólo  se  presenta  exhaustivamente  el  siguiente  modelo. 


5.3  Distribución  Normal 


La  importancia  de  esta  distribución  radica  en  la  enorme  frecuencia  con  que  aparece  en 
todo  tipo  de  situaciones  de  la  vida  cotidiana  y también  en  el  hecho  de  que  juega  un  papel  muy 
importante  en  la  inferencia  estadística  clásica. 

Karl  F.  Gauss,  estudiando  la  distribución  de  los  errores,  resultantes  de  medir 
reiteradamente  una  misma  magnitud,  probó  que  seguían  esta  distribución,  por  lo  cual  es 
conocida  como  distribución  Normal,  de  Gauss  o gaussiana.  La  apariencia  gráfica  de  la 
distribución  normal  es  una  curva  simétrica  en  forma  de  campana  (campana  de  Gauss). 

Un  gran  número  de  estudios  indica  que  la  distribución  normal  proporciona  una  adecuada 
representación,  por  lo  menos  en  una  primera  aproximación,  de  las  distribuciones  de  una  gran 
cantidad  de  variables  físicas.  Algunos  ejemplos  específicos  incluyen  datos  meteorológicos  tales 
como  temperatura,  mediciones  efectuadas  en  organismos  vivos,  mediciones  físicas  realizadas 
en  partes  manufacturadas,  errores  de  instrumentación,  etc.  . A continuación  se  da  la  definición 
formal  de  esta  distribución. 


Definición  3:  Una  variable  aleatoria  continua  X se  dice  que  tiene  distribución  de  probabilidades 
normal  si  su  función  de  densidad  se  describe  por: 


y = f(x)  = — l=exp 
a :2n 


V 

2 


2 A 


x - p. 
Ve r y 


donde  x y jlx  son  números  reales  cualesquiera  y a es  un  número  real  positivo. 


(5.6) 


La  representación  gráfica  de  esta  función  de  densidad  se  muestra  a continuación: 
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Gráfico  4:  Función  de  densidad  correspondiente 
a una  variable  con  distribución  normal 


Definición  4:  Los  parámetros  de  la  distribución  Normal  son  ja,  y a. 

Como  jii  y a pueden  tomar  infinitos  valores  existen  infinitas  distribuciones  normales. 
Estos  parámetros  influyen  en  el  gráfico  de  la  función  de  densidad  de  la  siguiente  manera: 

• jo,  es  el  punto  sobre  el  eje  x por  donde  pasa  el  eje  de  simetría  de  la  curva,  luego  se  verifica 

que  P(— oo  < X < (j,  ) = P(|u  < X < oo)  = 0.50;  es  decir  la  probabilidad  de  que  la  variable  X 

tome  valores  inferiores  o iguales  a ja,  es  igual  a la  probabilidad  de  que  X tome  valores 
superiores  o iguales  a jli  y ambas  son  iguales  a 0.50. 

• a determina  la  forma  de  la  curva,  en  cuanto  a la  agudeza  de  la  misma. 

Una  relación  importante  entre  los  parámetros  es: 

P(|ti  - g<X<|u  + g)=  0.6826 
P(|ti  - 2g  < X < [a,  +2  g)=0.9546 
P(jli  - 3g  < X < yi  + 3g)=0.9973 

Esta  relación  también  puede  expresarse  de  la  siguiente  manera: 

jli  ± g contiene  el  68.26%  de  los  valores  de  la  variable 
jli  ± 2g  contiene  el  95.46%  de  los  valores  de  la  variable 

jli  ± 3g  contiene  el  99.73%  de  los  valores  de  la  variable 

En  cada  uno  de  los  siguientes  gráficos  se  muestran  distribuciones  normales  con 
distintos  valores  para  los  parámetros. 
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Gráfico  5 (a):  Funciones  de  densidad  correspondientes  a variables 
aleatorias  con  distribución  normal,  con  diferentes  |u,  e igual  a. 


Gráfico  5 (b):  Funciones  de  densidad  correspondientes  a variables 
aleatorias  con  distribución  normal,  con  igual  ja,  y distinto  a. 


Para  indicar  que  la  variable  X tiene  distribución  Normal,  con  parámetros  jii  y a,  se 
escribe  X ~ N(|u  ,a). 

Las  características  numéricas  de  una  variable  aleatoria  con  distribución  normal  de 
parámetros  jli  y a son 

E(X)=pi  , Var(X)=a2  y Des(X)=a 
Éstas  coinciden  con  los  parámetros  de  dicha  distribución. 

Ejemplo  2:  Retomando  el  Problema  1.1,  se  está  interesado  en  estudiar  el  peso  de  novillos  de 
una  cierta  edad  de  la  raza  Charoláis  a fin  de  analizar  la  posibilidad  de  suministrarles  una  nueva 
dieta  rica  en  proteínas.  Se  sabe  que  la  variable  peso  tiene  distribución  normal  de  parámetros 
|li=300  kg.  y g=20  kg. , es  decir  X~N(300,20). 

Dado  que  los  parámetros  de  la  distribución  normal  coinciden  con  las  características 
numéricas  de  la  variable,  se  tiene  que  E(X)=300  y Des(X)=20.  El  significado  de  cada  uno  de 
estos  valores  es: 

• E(X)=300  kg.  , indica  que  los  animales  pesan  alrededor  de  300  kg.  y que  la  cantidad  de 
animales  con  peso  muy  alejado  de  300  kg.  (mayores  o menores)  es  baja. 


Variables  Aleatorias  Continuas 


• Des(X)=20  kg.  significa  que  los  pesos  de  los  animales  se  alejan,  en  promedio,  20  kg.  del 
peso  medio  (300  kg.). 

La  probabilidad  de  que  un  animal  pese  exactamente  320  kg.  es  0,  lo  cual  no  significa 
que  sea  imposible  que  eso  ocurra,  sino  que  entre  los  infinitos  valores  de  pesos  que  existen  es 
muy  difícil  encontrar  un  animal  que  pese  exactamente  320  kg. 

El  parámetro  |u=300  de  la  distribución  normal  indica  que  la  probabilidad  de  que  un 
animal  pese  más  de  300  kg.  es  igual  a la  probabilidad  de  que  pese  menos  de  300  kg.  y vale 
0.50.  En  símbolos  P(X  > 300)  = P(X  < 300)  = 0.50. 


5.3.1  Cálculo  de  probabilidades  de  una  variable  con  distribución  normal 

Para  ver  como  calcular  probabilidades  de  una  variable  aleatoria  continua  con 
distribución  normal  se  retomará  el  Ejemplo  2. 

Ejemplo  3:  Se  está  interesado  en  determinar  la  probabilidad  de  que  un  novillo  de  la  raza 
Charoláis  elegido  al  azar  tenga  un  peso  inferior  a 320  kg.,  es  decir  P(X  < 320). 

Antes  de  entrar  en  detalles  acerca  de  como  obtener  la  probabilidad  asociada  a una 
variable  aleatoria  normal  se  va  a definir  una  distribución  normal  muy  especial  y de  gran  utilidad 
para  resolver  el  problema  de  calculo  de  probabilidades. 


5.3. 1.1  Distribución  Normal  Estándar 

Dado  que  para  cada  par  de  valores  de  parámetros  se  genera  una  distribución  normal, 
parecería  necesario  contar  con  infinitas  tablas  de  dicha  distribución.  Sin  embargo,  con  una  sola 
tabla  se  pueden  calcular  probabilidades,  pues  haciendo  una  transformación  cualquier  variable 
aleatoria  con  distribución  normal  puede  convertirse  en  otra  variable  aleatoria  con  distribución 
normal  de  parámetros  |u=0  y g=1.  Esta  distribución  recibe  el  nombre  de  Distribución  Normal 
Estándar  y es  la  que  está  tabulada.  En  el  siguiente  gráfico  se  muestra  su  función  de  densidad. 


Gráfico  6:  Función  de  densidad  de  la  distribución  Normal  Estándar 
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5.3.1. 2 Estandarización 

Para  convertir  una  variable  aleatoria  X ~ N(|u,,g)  en  una  variable  aleatoria  normal 
estándar  se  realiza  la  siguiente  transformación 


G 


A partir  de  ella  surgen  resultados  Importantes 

1 . La  variable  Z tiene  distribución  normal. 

2.  Los  parámetros  de  esa  distribución  normal  son  jli=0  y g=1. 

El  primer  resultado  es  una  consecuencia  del  siguiente  resultado  general:  ”Una  función 
lineal  de  una  variable  aleatoria  con  distribución  normal  es  una  variable  aleatoria  con  distribución 
normal”  (Meyer,  P.  1992). 

El  segundo  resultado  se  puede  probar  fácilmente  teniendo  en  cuenta  que  los 
parámetros  coinciden  con  las  características  numéricas  y usando  las  propiedades  de 
Esperanza  y Varlanza,  como  se  Indica  a continuación. 


Sea 


Z = 


X-pi 


G 


a)  tomando  esperanza  a ambos  miembros  en  la  expresión  (5.7)  se  tiene 


E(Z)  = E 


"X-pT 
v cr  J 


G 

J_ 

G 

J_ 

G 


.E(X-pi) 

(por  E2) 

.[E(X)-EQ0] 

(por  E3) 

.(pl-pl) 

(por  Ei  y dado  que  E(X)=pi) 

.0  = 0 

b)  tomando  varlanza  a ambos  miembros  en  la  expresión  (5.7)  se  tiene 


Var(Z)  = Var 


^X-pi^ 


= _L.Var(X-pi) 

G 


(por  V2) 


V cr  ) 

= -y  • [V  ar(X)  + V ar(pi)]  (porV3) 


G 


= * (g2  - 0) 


<j~ 


-V-1 


(por  Vi  y dado  que  Var(X)=G“) 


(5.7) 


entonces  Var(Z)=l  y por  lo  tanto  Des(Z)=E 
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5.3.1. 3 Manejo  de  la  tabla  de  la  distribución  Normal  Estándar 

La  Tabla  C del  Apéndice  muestra  la  probabilidad  acumulada  hasta  un  cierto  valor 
positivo  de  abscisa  z,  P(Z<z). 

Solución  para  el  Ejemplo  3: 

Recordando  que  se  desea  determinar  P(X<320),  que  corresponde  gráficamente  al  área 
sombreada  en  el  Gráfico  7 


Gráfico  7:  Probabilidad  de  que  el  peso  de  un  animal 
sea  inferior  a 320  kg. 

Lo  primero  a tener  en  cuenta  es  que  la  variable  en  estudio  es  X ~ N(300,20),  luego  para 
determinar  la  probabilidad  deseada  se  debe  estandarizar,  o sea  definir  la  variable 

X - 300  , , 

Z = NÍ0,l) 

20  V ' 


Luego  P(X<320)=P 


X-300  320-300' 

< 


V 


= p(z<l)  = 0.8413. 


20  20 

Al  estandarizar  el  gráfico  anterior  se  transformó  en  el  siguiente 


4-3-2-101  234 

Z 

Gráfico  8:  Probabilidad  de  que  la  variable  estandarizada 
sea  Inferior  a 1. 

Cabe  destacar  que  las  áreas  representadas  en  ambos  gráficos  son  equivalentes. 

El  valor  de  la  probabilidad  indica  que  el  84.13%  de  los  animales  pesan  menos  de  320 
kg. 
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Ejemplo  4:  Bajo  los  supuestos  del  Ejemplo  2,  se  desea  determinar  la  probabilidad  de  que  el 
peso  de  un  novillo  de  la  raza  Charoláis 

a)  sea  superior  a 340  kg.  b)  esté  entre  285  kg.  y 350  kg.  c)  sea  Inferior  a 220  kg. 


Solución: 

Como  la  variable  en  estudio  X ~ N(300,20),  las  probabilidades  son: 


a) 

P(X  > 340)  - 20 

b) 

P(285  < X < 350)  = P 


^X  - 300  340-300' 

> 


20 


= P(Z  > 2)  = 1 - P(Z  < 2)  = 1 - 0.9772  = 0.0228 


285-300  X -300  350-300 


< 


< 


= P(-  2.75  < Z < 2.5)  = 


20  20  20 
= P(Z  < 2.5)-  P(Z  < -2.75)  = 0.9938  - 0.0030  = 0.9908 
donde  P(Z  < -2.75)=P(Z  > 2.75)=1-P(Z  < 2.75) 


c) 


p(x  < 220)  = P 


X - 300  220-300 


V 


20 


< 


20 


= P(z<-4)=0 


Gráficamente  la  probabilidad  P(X>340)  es 


Gráfico  9:  Probabilidad  de  que  el  peso  de  un  animal 
sea  superior  a 340  kg. 


Muchas  variables  aleatorias  de  tipo  continuo  se  ajustan  a otras  distribuciones  tales 
como  la  Distribución  Uniforme,  Gamma,  Beta,  Welbull  y Exponencial,  pero  ellas  no  serán 
motivo  de  discusión  de  este  texto.  Sí  se  definirán  otras  distribuciones  de  tipo  continuo  muy  útiles 
para  la  estadística  inferenclal. 


5.4  Otras  distribuciones  continuas 

Las  distribuciones  continuas  que  serán  definidas  a continuación  son  muy  utilizadas  en 
la  teoría  estadística.  Además  tienen  la  particularidad  de  que  sus  parámetros  son  llamados 
grados  de  libertad,  los  cuales  indican  intuitivamente  la  cantidad  de  información  independiente 
con  la  que  se  cuenta. 
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Por  ejemplo,  si  se  tiene  una  muestra  de  tamaño  n,  la  cual  puede  ser  denotada  por 

(Xi,X2,...,Xn),  y X es  su  media.  SI  ahora  se  tiene  la  suma  de  los  desvíos  X(x¡  -X}  , se 

i=r  ’ 

ve  que  este  valor  depende  sólo  de  n-1  (de  los  n)  sumandos  y el  restante  esta  unívocamente 
determinado,  por  esto  se  dice  hay  n-1  términos  Independientes  y cuando  se  habla  de  los 
grados  de  libertad  asociados  a una  distribución,  se  lo  hace  en  estos  términos. 


5.4.1  Distribución  Ji-Cuadrado  (y) 

Definición  5:  La  variable  aleatoria  continua  Y tiene  distribución  de  probabilidades  Ji-Cuadrado 
con  n grados  de  libertad  (Y~%“),  s¡  puede  expresarse  como  la  suma  de  los  cuadrados  de  n 
variables  aleatorias  Independientes  normales  estándar,  o sea 

Y = XX-  donde  X¡  ~ N(0,1)  independientes,  i=l,2,...,n 

i=l 

2 

Definición  6:  El  parámetro  de  la  distribución  es  n,  o sea  sus  grados  de  libertad. 

Notar  que  en  la  Definición  5 aparece  un  nuevo  concepto  variables  aleatorias 
independientes  y que  la  Definición  6 relaciona  directamente  los  grados  de  libertad  de  la 
distribución  Jl-Cuadrado  con  la  cantidad  de  variables  aleatorias  independientes  que  intervienen 
en  su  definición.  Falta  decir  entonces  cuando  n variables  aleatorias  serán  consideradas 
independientes,  por  lo  cual  se  da  la  siguiente  : 

Definición  7:  Sea  E un  experimento  aleatorio  y S el  espacio  muestral  asociado  a él,  se  dice 

que  las  variables  aleatorias  Xi,  X2 Xn  definidas  sobre  S son  independientes,  si  para 

cualquier  intervalo  [ai,bi],[a2,b2], , [an,bn],  se  verifica 

P(ai  <Xj  <b1,...,an  <Xn<bn)  = P(ai  <Xj  <b1)---P(an<Xn<bn) 

2 

La  función  de  densidad  de  una  variable  aleatoria  con  distribución  %n  es  una  función 
f:ÍR+  — > 9Í+  cuya  forma  explícita  es 

xn/2  exp(x  / 2) 

2nT(n 

donde  r(n)  es  la  función  Gamma. (Meyer  P.  1992). 

El  gráfico  de  la  función  de  densidad  de  una  variable  aleatoria  con  distribución  Jl- 
Cuadrado  depende  del  parámetro  o sea  de  los  grados  de  libertad.  A continuación  se  muestra  el 
gráfico  de  la  función  de  densidad  para  n=l  , n=2,  n>3  . 
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Gráfico  10:  Funciones  de  densidad  de  la  distribución 
Ji-Cuadrado  de  acuerdo  a sus  grados  de  libertad 

Las  características  numéricas  de  una  variable  aleatoria  Ji-Cuadrado  con  n grados  de 
libertad  son: 

Efcn)  = n yVar(x;)  = 2n 

Esta  distribución  verifica  la  propiedad  reproductiva,  o sea,  si  X e Y son  dos  variables 

aleatorias  independientes  que  tienen  distribuciones  xn  Y Xm  respectivamente,  entonces  la 

variable  suma  X+Y  tiene  una  distribución  Ji-Cuadrado  con  n+m  grados  de  libertad. (Meyer,  P. 
1992). 


5.4.2  Distribución  t de  Student  (t) 


Definición  8 : La  variable  aleatoria  continua  T tiene  distribución  de  probabilidades  t de  Student 
con  n grados  de  libertad  (T~tn)  si  puede  expresarse  como  el  cociente  de  dos  variables 
aleatorias  independientes  X (normal  estándar)  e Y (raíz  cuadrada  de  una  Ji-Cuadrado  dividida 
sus  grados  de  libertad),  o sea 


T = 


X 
Y ’ 


donde  X~N(0,1) 


Definición  9:  El  parámetro  de  la  distribución  tn  es  n,  o sea  los  grados  de  libertad. 

Notar  que  el  parámetro  depende  de  los  grados  de  libertad  de  la  variable  aleatoria  Y. 

La  función  de  densidad  de  la  variable  aleatoria  T con  distribución  tn  es  una  función 
f:ÍR— »ÍR+  cuya  forma  explícita  es 


f(x)  = 


r((n  + l)/2) 


f o \-(n+l)/2 

1 + ^- 


V 


n 


, —oo  < x < oo 


r(n/2)Vn7T  I 

El  gráfico  de  la  función  de  densidad  de  una  variable  aleatoria  con  distribución  t-Student 
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depende  del  parámetro  o sea  de  los  grados  de  libertad.  A continuación  se  muestra  el  gráfico  de 
la  función  de  densidad  para  algunos  valores  de  n. 


Gráfico  11:  Función  de  densidad  de  la  distribución  t de  Student 
de  acuerdo  a sus  grados  de  libertad 

La  función  de  densidad  de  una  variable  con  distribución  t de  Student  es  simétrica 
respecto  de  cero  y,  comparada  con  la  distribución  normal  estándar,  tiene  las  colas  más 
pesadas  aproximándose  a la  función  de  densidad  de  ésta  a medida  que  los  grados  de  libertad 
aumentan. 

Las  características  numéricas  de  una  variable  aleatoria  T con  distribución  t de  Student 
con  n grados  de  libertad  son 

E(tn)  = 0,  para  n > 1 Var(tn ) = — — — , para  n > 3 

n -2 


5.4.3  Distribución  F de  Fisher  (F) 

Definición  10:  Una  variable  aleatoria  continua  F tiene  distribución  de  probabilidades  F de 
Fisher  con  n y m grados  de  libertad  (F~Fn,m)  si  puede  expresarse  como  el  cociente  entre  dos 
variables  aleatorias  independientes,  X e Y (con  distribuciones  %ñ  y %m  respectivamente) 
dividido  sus  grados  de  libertad,  o sea 

X / n 7 7 

F = — - — , donde  X = %n  e Y = Xm 

Y / m 


Definición  11:  Los  parámetros  de  la  distribución  F de  Fisher  son  n y m,  o sea  los  grados  de 
libertad  del  numerador  y del  denominador,  respectivamente. 


La  función  de  densidad  de  una  variable  aleatoria  con  distribución  Fn,m  es  tal  que 
f:)H — »ÍR+  y cuya  forma  explícita  es 


f(x) 


r((n  + m)/2)  í n^j 
r(n/  2)r(m/  2)  V nv 


n/2 

xn/2-‘ 


-(n+m)/2 


x>  0 
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El  gráfico  de  la  función  de  densidad  se  presenta  a continuación  para  algunos  grados  de 

libertad. 


Gráfico  12:  Funciones  de  densidad  de  la  distribución  F de  Flsher 
de  acuerdo  a sus  grados  de  libertad 


Las  características  numéricas  de  una  variable  aleatoria  F con  distribución  F de  Fisher 
con  n y m grados  de  libertad  son: 
m 


E(F)  = 


m - 2 


, para  m > 2 


. . 2m9(n  + m-2)  . 

Var(F)  = — — v / — , para  m > 4 

n(m-2)2(m-4) 


Las  distribuciones  Jl-Cuadrado,  t de  Student  y F de  Flsher  definidas  en  esta  sección 
son  comúnmente  llamadas  distribuciones  centrales.  La  definición  de  las  distribuciones  no 
centrales  correspondientes  pueden  ser  consultadas  en  Johnson,  N.L.  y Kotz,  S.  (1970).  Por  otra 
parte  estas  distribuciones  pueden  aproximarse  a la  Normal  a medida  que  aumentan  los  grados 
de  libertad,  lo  que  puede  ser  observado  en  los  Gráficos  13,  14  y 15. 


Gráfico  13:  Funciones  de  densidad  de  la  distribución  Jl-Cuadrado 
con  grados  de  libertad  n=10,...,200 
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Gráfico  14:  Funciones  de  densidad  de  la  distribución  F 
con  grados  de  libertad  (10,10),  ...,  (200,200) 


Gráfico  15:  Funciones  de  densidad  de  la  distribución  t 
con  grados  de  libertad  1,  ...,30 


5.4.4  Uso  de  Tablas 

Como  en  los  casos  anteriores  existen  tablas  que  permiten  calcular  probabilidades. 

2 

• La  Tabla  E del  Apéndice  (distribución  %“)  presenta  el  valor  de  abscisa  z que  corresponde  a 
un  valor  del  parámetro  (grados  de  libertad)  y a la  probabilidad  de  los  valores  de  variable 

2 

mayores  a z,  P(%  "n  > Z)  ■ 

• La  Tabla  D del  Apéndice  (distribución  t)  presenta  el  valor  de  abscisa  z que  corresponde  a un 
valor  del  parámetro  (grados  de  libertad)  y a la  probabilidad  acumulada  hasta  el  valor  de  z 
,.P(tn<  z). 

• La  Tabla  F del  Apéndice  (distribución  F)  presenta  el  valor  de  abscisa  z que  corresponde  a 
valores  de  los  parámetros  (grados  de  libertad  ni  y n2)  y a la  probabilidad  P(Fnijn2>  z). 
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5.5  Teoría  elemental  del  muestreo 

La  teoría  del  muestreo  estudia  la  relación  entre  una  población  y las  muestras  tomadas 
de  ella.  Por  ejemplo  para  la  estimación  de  magnitudes  desconocidas  de  una  población  tales 
como  media  y varlanza,  llamadas  a menudo  parámetros  de  la  población,  se  utilizan  las 
características  numéricas  de  la  muestra,  llamadas  estadísticos.  Entonces  se  puede  decir  que 
cuando  se  estiman  valores  poblacionales  a través  de  una  muestra  se  dice  que  se  está  haciendo 
Inferencia,  en  el  capítulo  siguiente  se  volverá  a discutir  sobre  este  tema. 

Se  puede  decir,  entonces,  que  la  base  de  la  inferencia  es  la  muestra,  por  lo  que  el 
concepto  dado  a continuación  es  muy  Importante. 


5.5.1  Muestras  Aleatorias 

Para  entender  este  concepto  se  trabajará  sobre  el  siguiente 

Ejemplo  5:  Para  el  Problema  1.1,  en  el  cual  el  objetivo  es  estudiar  el  efecto  de  una  nueva  dieta 
sobre  novillos  de  la  raza  Charoláis  a través  de  la  variable  peso,  se  tiene: 

E.  "extraer  un  novillo  al  azar  de  la  raza  Charoláis". 

SI  se  realizan  n repeticiones  de  este  experimento  la  muestra  de  unidades  es 

(animal-i,  animal2,...,  anlmaln) 

SI  a cada  uno  de  estos  n animales  se  les  suministra  la  dieta  y luego  se  registra  su  peso  se 
obtiene,  por  ejemplo,  la  siguiente  muestra  estadística 

(490,530,510,  ...,470) 

donde 

490  es  el  peso  del  animal-i  de  la  muestra  de  animales  seleccionada, 

530  es  el  peso  del  animal2  de  la  muestra  de  animales  seleccionada, 

510  es  el  peso  del  animal3  de  la  muestra  de  animales  seleccionada, 


470  es  el  peso  del  anlmaln  de  la  muestra  de  animales  seleccionada. 

Si  se  toma  otra  muestra  de  n animales  de  la  misma  población  se  obtiene  otra  muestra 
estadística,  por  ejemplo 

(480,  500,  540,  ...,  450) 

donde 

480  es  el  peso  del  animal-i  de  la  muestra  de  animales  seleccionada, 

500  es  el  peso  del  anlmal2  de  la  muestra  de  animales  seleccionada, 

540  es  el  peso  del  anlmal3  de  la  muestra  de  animales  seleccionada, 


450  es  el  peso  del  animaln  de  la  muestra  de  animales  seleccionada. 

Las  dos  muestras  estadísticas  indicadas  anteriormente  se  obtuvieron  después  de 
realizar  el  experimento.  SI  se  deseara  indicar  los  valores  de  peso  de  n animales  antes  de 
realizar  el  experimento  se  los  debería  representar  como 
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(Xi,  X2,  Xn) 


donde: 

Xj:  representa  el  peso  del  animal  que  será  elegido  en  primer  lugar. 

X2:  representa  el  peso  del  animal  que  será  elegido  en  segundo  lugar. 

X3:  representa  el  peso  del  animal  que  será  elegido  en  tercer  lugar. 


Xn:  representa  el  peso  del  animal  que  será  elegido  en  el  lugar  n. 

Xi,  X2,  ...,  Xn  son  n variables  aleatorias  Independientes  e Idénticamente  distribuidas, 
esto  es,  el  peso  de  un  animal  no  Influye  en  el  de  otro  y todas  tienen  la  misma  distribución  que  la 
variable  X. 

Definición  12:  Sea  X una  variable  aleatoria  con  cierta  distribución  en  probabilidades.  Sean,  Xi, 
X2,  Xn,  n variables  aleatorias  independientes  e Idénticamente  distribuidas.  Entonces  a (Xi, 
X2,  Xn)  se  la  llama  muestra  aleatoria  de  tamaño  n de  la  variable  aleatoria  X. 

Los  valores  numéricos  de  la  variable  en  estudio  una  vez  realizado  el  experimento,  se 
denotan  (xi,  x2,  ...,  xn)  que  es  la  muestra  estadística  correspondiente  al  experimento  realizado. 

Ahora  bien,  si  (X¡,  X2,  Xn)  es  una  muestra  aleatoria  entonces  los  estadísticos 
resultan  variables  aleatorias  ya  que  son  funciones  de  n variables  aleatorias  y por  tanto  tendrán 
asociados  una  distribución  de  probabilidades. 

A continuación  se  presentan  algunos  resultados  básicos  que  permiten  obtener  las 
distribuciones  de  probabilidades  de  los  estadísticos  más  utilizados  para  estimar  valores 
poblaclonales:  la  media  y la  varlanza  muestral 


5.5.2  Distribución  de  probabilidades  de  la  media  muestral 


Sea  X una  variable  aleatoria  con  E(X)=pi  y Var(X)=a“.  Sea  X el  promedio  muestral 
de  una  muestra  aleatoria  de  tamaño  n,  entonces: 


a)  E(X)  = pi 

b)  Var(x)  = 


— \ G_ 

n 


a 


c)  Para  n grande  (n>30),  X ~ N 
en  realidad  X tiende  a la  distribución  Normal. 


pi, — ~i=  J . Esta  última  expresión  es  un  abuso  de  notación  pues 
v Vil' 


Los  incisos  a)  y b)  se  pueden  demostrar  fácilmente,  utilizando  las  propiedades  de 
Esperanza  y Varlanza  dadas  en  la  Sección  4.3.1,  en  tanto  que  el  punto  c)  es  lo  que  se  conoce 
como  Teorema  Central  del  Límite  (Mendenhall,  W.  et.  al.  1994).  Este  último  resultado  es  de 
gran  relevancia  pues  asegura  que  cualquiera  sea  la  distribución  de  la  variable  X para  una 

muestra  de  tamaño  considerable,  la  distribución  de  la  media  muestral,  X,  es  aproximadamente 
Normal. 
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Cuando  la  variable  X tiene  distribución  Normal,  la  distribución  de  la  media  muestral  es 

Normal 


5.5.3  Distribución  de  probabilidades  de  la  varianza  muestral 


— 2 

Así  como  X resulta  una  variable  aleatoria  con  una  cierta  distribución,  también  S"  es 

una  variable  aleatoria  y su  distribución  surge  del  siguiente  resultado: 

Sea  X una  variable  aleatoria  con  E(X)=|.i  y Var(X)=a“.  Sean  X y S la  media  y la 
varianza  muestral  respectivamente,  entonces 

a)  E(S2)=g2 

v (n  - l)S2  2 

b)  SI  además  X tiene  distribución  normal  entonces  ~ xn-i  .(Mendenhall,  W.  et.  al. 

o 

1994) 

Una  aplicación  de  estos  dos  conceptos  se  presenta  en  el  siguiente 

Ejemplo  6:  Bajo  los  supuestos  del  Ejemplo  2,  se  selecciona  una  muestra  de  n=25  novillos  de 
esa  raza  con  el  objeto  de  determinar  las  siguientes  probabilidades: 


a)  el  peso  promedio  sea  Inferior  a 295  kg. 

b)  la  varianza  del  peso  de  los  animales  sea  inferior  a 324  kg.2. 


Solución: 

Para  este  problema  X~N(300,20). 


a)  La  variable  de  interés  en  este  caso  es  la  media  muestral,  la  cual  se  distribuye  de  la  siguiente 
manera  X~n(300,  20/  V25").  Luego  para  determinar  lo  deseado  se  procede  así 


P(X  <295)=P 


X - 300  295-300 

20/V25  20/V25 


= P(Z< -1.25)  = 0.1056. 


SI  se  seleccionara  muchas  veces  grupos  de  25  animales  aproximadamente  en  el  10.56%  de 
las  veces  el  peso  promedio  será  menor  a 295  kg. 


b)  La  variable  de  Interés  en  este  caso  es  la  varianza  muestral  la  cual,  multiplicada  por  ciertas 

(n  - l)S2 


constantes  se  distribuye  de  la  siguiente  manera 
probabilidad  pedida  se  procede  así. 


%n_j . Luego  para  calcular  la 


G 


p(s2  <324)  = pfí^í.S2  <í^-^.324 

V G“  G“ 


= p 


V 


X24  < — *324 

~4  400 


J 


p(x;4<  19.44)=  0.25 


SI  se  seleccionara  muchas  veces  grupos  de  25  animales  aproximadamente  en  el  25%  de  las 
veces  la  varianza  de  los  pesos  será  inferior  a 324  kg.2. 
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5.6  Relación  entre  Binomial,  Poisson  y Normal 

Una  propiedad  importante  de  la  distribución  normal  es  que  puede  aproximar  a la 
distribución  Binomial  y Poisson. 

Se  ha  demostrado  que  si  Xb~B(n,p)  con  n grande  (n>30)  y p no  muy  cercano  a 0 o a 
1,  entonces  la  variable 

Xb~np 

Vn*p*q 

se  aproxima  a la  distribución  normal  estándar  (Este  resultado  es  válido  debido  al  Teorema 
Central  del  Límite  ya  citado).  Así  se  puede  calcular  P(a<Xb<b)  considerando  a 
Xb~N  (n»p,^/n»p»q). 


Análogamente  la  distribución  normal  puede  aproximar  a una  distribución  de  Poisson 
cuando  A>5,  es  decir  XP~N (A,,  Vi) . 


Ejercicios  de  Aplicación 

1. 

Sea  X una  variable  aleatoria  continua  con  distribución  normal,  con  media  cero  y 
varianza  1.  En  símbolos  X ~ N(0,1).  Hallar  y graficar: 

a)  P(X  < -1 .96)  b)  P(X  > 0)  c)  P(X  > 2.45) 

d)  P(-1 .64  < X < 1 .64)  e)  P(X>-6.5) 

2. 

Rehacer  el  ejercicio  anterior  bajo  el  supuesto  de  que  X ~ N(3,2). 

3. 

Bajo  el  supuesto  de  que  X ~ N(0,1),  determinar  el  valor  de  a tal  que: 
a)  P(X  < a ) = 0.025  b)  P(X  > a ) = 0.975  c)  P(X  < a ) = 0.90 

d)  P(X  > a ) = 0.10  e)  P(X  < a ) = 0.6844  f)  P(X  < a ) = 0.1075 

g)  P(X  > a ) = 0.0668  h)  P(X  > a ) = 0.8554  i)  P(X  > a ) = 0.20 

4. 

a)  Encontrar  el  valor  del  área  sombreada  debajo  de  las  siguientes  funciones  de 
densidad  correspondientes  a una  variable  aleatoria  normal  estándar. 
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b)  Hallar  el  valor  de  x que  corresponde  a la  probabilidad  indicada  en  los  siguientes 
gráficos: 


4 


Dada  una  variable  aleatoria  se  define  como  función  de  distribución  a la  probabilidad  de 
que  la  variable  tome  valores  menores  a un  valor  dado.  En  símbolos  F(x)=P(X<x).  El 
siguiente  gráfico  corresponde  a la  función  de  distribución  F(x)  de  una  variable  aleatoria 
con  distribución  normal  estándar: 
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A partir  de  dicha  figura  resolver  (aproximadamente): 

a)  b) 

i)  P(X<0)  i)  F(x)=0.5 

ii)  P(X<4)  ii)  1-F(x)=0.1 


Encontrar  el  valor  del  área  sombreada  para  las  distribuciones  normales  con 
parámetros: 

a)  p = 20  a = 3 b)  p = 1 0 a =2 


Un  especialista  en  ictiología  tropical  está  interesado  en  estimar  cuánto  tiempo  puede 
sobrevivir  cierto  tipo  de  pez  en  aguas  con  determinado  porcentaje  de  toxicidad.  Luego 
de  una  larga  serie  de  experimentos  llega  a estimar  que  la  vida  media  de  este  tipo  de 
pez  alcanza  a los  90  días  después  de  haber  sido  colocado  en  el  agua  venenosa,  con 
una  desviación  estándar  de  5 días.  Es  posible  suponer  que  la  distribución  de  los  "días 
de  sobrevida"  es  normal.  ¿Cuál  es  la  probabilidad  de  que  un  pez  viva  más  de  120 
días?. 


El  peso  de  las  raíces  de  alfalfa,  que  se  puede  considerar  como  índice  de  crecimiento, 
está  distribuido  normalmente  con  media  22  gr.  y desviación  estándar  10  gr.  Hallar: 

a)  La  probabilidad  de  que  el  peso  de  las  raíces  sea  mayor  a 23  gr. 

b)  La  proporción  de  raíces  con  un  peso  inferior  a los  1 0gr. 

c)  El  peso  tal  que  por  debajo  de  él  se  encuentre  el  50%  de  las  raíces. 

d)  El  peso  tal  que  por  encima  de  él  se  encuentren  el  25%  de  las  raíces  (es  decir  el 
primer  cuartil  de  la  distribución). 


El  peso  de  las  langostas  está  distribuido  normalmente  con  parámetros  p=6  gr.  y a=0.3 

gr- 

a)  Hallar: 

i)  la  proporción  de  langostas  cuyo  peso  se  encuentra  entre  5.8  gr.  y 6.4  gr. 

ii)  el  porcentaje  de  langostas  con  un  peso  mayor  a 6.7  gr. 
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b)  Otra  especie  de  langostas  está  distribuida  normalmente  con  media  p=  5 gr.  y 
desviación  estándar  0.1  gr.  Calcular  las  probabilidades  solicitadas  en  los  incisos 
anteriores  bajo  esta  nueva  distribución  y compararlas  con  las  anteriores. 

c)  ¿Cuál  debiera  ser  el  valor  del  peso  medio  de  la  población  de  tal  modo  que  el  25%  de 
los  insectos  tenga  un  peso  superior  a los  6 gr.,  suponiendo  que  la  varianza  de  la 
población  es  la  misma? 


10. 

Se  observó  durante  un  largo  período  que  la  cantidad  semanal  gastada,  en 
mantenimiento  y en  reparaciones,  en  un  tambo  tiene  aproximadamente  una  distribución 
normal  con  media  $300  y una  desviación  estándar  de  $15.  Si  el  presupuesto  para  la 
próxima  semana  es  de  $350. 

a)  ¿Cuál  es  la  probabilidad  de  que  los  costos  reales  sean  mayores  que  la  cantidad 
presupuestada?. 

b)  Mediante  una  planificación  del  gasto  es  posible  reducir  la  variabilidad  del  mismo  pero 
no  su  media.  ¿Cuánto  debería  ser  la  varianza  de  la  cantidad  semanal  gastada  de  tal 
modo  que  la  probabilidad  de  gastar  más  de  320$  sea  prácticamente  despreciable?. 


a)  SI  una  población  normal  tiene  media  Igual  a 10  y varianza  Igual  a 4. 
a1)  ¿Oué  porcentaje  de  las  observaciones  se  encuentra  entre  9 y 14?. 
a2)  ¿Oué  porcentaje  de  las  observaciones  se  encuentra  entre  13  y 15?. 

b)  Suponga  que  se  tiene  una  distribución  normal  con  media  0 y varianza  1 . 
b.,)  ¿Entre  qué  valores  se  ubicará  el  95%  de  las  observaciones  centrales? 
b2)  ¿Entre  qué  valores  se  ubicará  el  99%  de  las  observaciones  centrales? 

Sean  las  variables  aleatorias  X^ , X2 , X3 , X4  independientes  N(0,1)  hallar : 

a)  P(  X < 1 .4)  c;P(-1<X<1) 

b)  P(  X > 2.8)  d)  P(-2  < X < 0.5) 


Sean  las  variables  aleatorias  X-i  , X2,  ...  ,X9  independientes  N(3,2)  hallar: 
ajP(X<2.5)  b)  P(X>4.6) 

14. 

En  el  estudio  mencionado  en  el  Ejercicio  1-f  del  Capítulo  1,  suponga  que  se  cuenta 
con  la  información  de  que  la  variable  “porcentaje  de  festuca”  sigue  la  distribución 
normal  de  media  50%  con  una  desviación  del  4%.  Para  un  grupo  de  25  vicuñas,  ¿cuál 
es  la  probabilidad  de  que 

a)  el  porcentaje  medio  de  Festuca  sea  superior  al  60%? 

b)  el  porcentaje  medio  de  Festuca  se  encuentre  entre  45%  y 55%.? 


15. 

Los  huevos  de  las  ponedoras  Leghorn  se  embalan  en  cartones  de  2 docenas  cada  uno. 
Los  controles  de  calidad  exigen  que  el  peso  medio  por  cartón  sea  por  lo  menos  40 
gramos.  SI  el  peso  del  cartón  sigue  una  distribución  normal  de  media  45  gr.  y 
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desviación  estándar  2 gr.,  ¿cuál  es  la  probabilidad  de  que  un  cartón  sea  rechazado 
según  las  especificaciones  del  control  de  calidad?. 

16. 

El  contenido  de  sales  en  el  suelo  tiene  distribución  normal  con  media  30.1  ppm  y 
desviación  estándar  7 ppm.  Se  seleccionan  9 muestras  de  suelo  de  la  zona  sur  de  la 
provincia  de  Córdoba.  Calcular  la  probabilidad  de  que: 

a)  El  contenido  de  sales  del  suelo  sea  superior  a 22.5  ppm. 

b)  El  contenido  promedio  de  sales  del  suelo  sea  superior  a 22.5  ppm. 

c)  El  contenido  promedio  de  sales  del  suelo  esté  entre  27.8  y 31 .5  ppm. 
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Objetivos: 

♦ Reconocer  la  utilidad  de  los  intervalos  de  confianza  como  un  método  de  estimación. 

♦ Interpretar  la  información  brindada  por  un  intervalo  de  confianza. 


6.1  Introducción 

Como  se  estableció  en  los  Capítulos  1 y 3 uno  de  los  objetivos  de  la  estadística  es 
hacer  inferencia  con  respecto  a la  población  en  base  a la  información  contenida  en  una 
muestra.  Según  Lehmann  (1983)  "la  inferencia  es  una  adivinanza  educada". 

Las  variables  que  se  definen  en  los  experimentos  en  general  pueden  ser  asociadas  a 
distintas  distribuciones  que  dependen  de  parámetros,  por  ejemplo: 

• La  distribución  Binomial  está  definida  por  una  función  de  densidad  puntual  f(x,n,p) 
que  depende  de  los  parámetros  n yp. 

• La  distribución  Poisson  está  definida  por  una  función  de  densidad  puntual  f(x,^) 
que  depende  del  parámetro  X. 

• La  distribución  Normal  está  definida  por  una  función  de  densidad  f(x,|ii,a)  que 
depende  de  los  parámetros  p y o. 

El  objetivo  de  la  mayoría  de  las  investigaciones  científicas  es  hacer  inferencia  con 
respecto  a ciertos  parámetros  poblacionales,  los  cuales  en  general  son  desconocidos  y por  lo 
tanto  el  problema  es  obtener  la  mayor  información  posible  acerca  de  ellos.  Si  fueran  conocidos 
la  función  de  densidad  estaría  totalmente  determinada  y no  se  debería  procurar  ninguna 
información  sobre  ellos.  Entonces,  utilizando  la  información  contenida  en  una  muestra  aleatoria 
única,  se  intenta  estimar  el  valor  numérico  del  o de  los  parámetros  desconocidos  de  interés. 

Por  ejemplo  si  la  variable  de  interés  tiene  distribución  Normal,  entonces  se  puede  estar 
interesado  en  estimar  p y/o  a,  en  tanto  que  si  la  variable  de  interés  tiene  distribución  Binomial 
se  puede  estar  interesado  en  estimar  la  proporción  p. 

La  Inferencia  Estadística  utiliza  dos  técnicas  para  lograr  su  objetivo:  la  Estimación 
(puntual  y por  Intervalos)  y la  Prueba  de  Hipótesis. 

La  estimación  tiene  muchas  aplicaciones  prácticas,  por  ejemplo: 

* Un  veterinario  desea  determinar  la  proporción  de  animales  de  una  cierta  raza 
afectados  por  una  determinada  enfermedad  en  la  provincia  de  Buenos  Aires. 

* Un  fabricante  de  lavadoras  podría  estar  interesado  en  estimar  la  proporción  de 
lavadoras  que  se  descomponen  antes  de  que  termine  el  período  de  garantía  de  un 
año. 

* Se  desea  estimar  la  cantidad  promedio  de  mercurio  que  puede  extraerse  (mediante 
un  proceso  particular)  de  1 onza  de  mineral  proveniente  de  una  localidad  geográfica 
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particular. 

* Para  optimizar  la  atención  en  un  supermercado  se  podría  estar  interesado  en  estimar 
el  tiempo  medio  de  espera  en  una  caja  registradora. 

* Para  conocer  la  precisión  de  un  instrumento  electrónico,  se  puede  desear  estimar  la 
desviación  estándar  de  la  medición  de  dicho  instrumento. 

Retomando  ahora  el  Problema  1.1,  “Mediante  una  nueva  dieta  se  espera  que  se 
incremente  el  peso  en  novillos  de  raza  Charoláis”.  La  variable  aleatoria  en  estudio  X:  Peso 
tiene  asociada  una  distribución  de  probabilidades  que  puede  suponerse  Normal.  En  esta  etapa 
el  objetivo  es  obtener  información  acerca  del  peso  promedio  de  todos  los  novillos  de  raza 
Charoláis  alimentados  con  la  nueva  dieta,  esto  es  E(X)=p  (p  es  además  uno  de  los 
parámetros  de  la  distribución  Normal). 

Es  natural  pensar  que  para  estimar  el  valor  de  la  E(X)=p  se  utilizará  la  información  de 
la  muestra,  aunque  evidentemente  sobre  la  base  de  una  muestra  de  tamaño  n no  se  puede 
reconstruir  la  verdadera  composición  de  la  población  en  estudio.  En  otras  palabras,  a no  ser 
que  se  inspeccione  a cada  animal  de  la  población  no  se  podrá  conocer  el  verdadero  valor  de 
E(X)=p.  Así  surge  la  idea  de  buscar  un  valor  aproximado  para  el  parámetro.  Por  ejemplo  para 

aproximar  la  media  poblacional  E(X)=p  se  puede  proponer  a la  media  muestral  X . En  este 
caso  se  está  tratando  a este  estadístico  como  un  estimador,  término  que  será  definido  a 
continuación. 

Definición  1:  Un  estimador  es  un  estadístico  que  se  utiliza  para  estimar  un  parámetro  de  la 
distribución. 


6.2  Estimación  Puntual 

Para  la  estimación  de  un  parámetro  se  podría  utilizar  solo  un  número;  la  intención  es 
que  dicho  número  esté  cerca  del  verdadero  valor  del  parámetro. 

Si  X es  una  variable  aleatoria  con  distribución  Normal  cuyas  características  numéricas 
E(X)=p  y Var(X)=o  son  desconocidas  y el  interés  es  estimar  dichas  características,  se 
pueden  proponer  como  estimadores  los  estadísticos  X yS  , respectivamente. 

Definición  2:  Una  estimación  puntual  de  un  parámetro  es  el  valor  que  toma  un  estimador  para 
una  muestra  particular. 

Para  el  Problema  1.1  una  estimación  puntual  del  peso  promedio  de  todos  los  novillos  de 
raza  Charoláis  con  la  nueva  dieta  es  X = 413  kg. 

Para  estimar  el  verdadero  valor  del  parámetro,  se  puede  elegir  cualquier  estadístico 
definido  en  el  Capítulo  2.  Lo  que  ocurre  es  que  los  estadísticos  deben  cumplir  ciertas 
propiedades  para  ser  considerados  buenos  estimadores  y se  eligen  aquellos  que  cumplan  con 
ellas.  Ni  éstas  ni  los  métodos  para  generar  buenos  estimadores  serán  mencionados  en  este 
texto,  pues  están  fuera  del  alcance  del  mismo  (Mendenhall,  W.  et.  al.  - 1994). 

Suponga  que  el  problema  es  estimar  la  proporción  de  éxitos  p de  una  variable  aleatoria 
X con  distribución  Bernoulli.  Para  ello  se  extrae  una  muestra  aleatoria  de  tamaño  n de  dicha 

n 

distribución,  denotada  por  (Xi,X2,...,  Xn).  Si  se  define  Y = £X¡  como  el  número  de  éxitos  en 
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, Y 

la  muestra,  un  buen  estimador  puntual  del  parámetro  p resulta  p = — . 

n 

Dado  que  los  estadísticos  X y S verifican  las  propiedades  requeridas  para  ser  un 
buen  estimador,  son  utilizados  generalmente  como  estimadores  de  la  E(X)  y la  Var(X) 
respectivamente. 

Como  la  estimación  raramente  coincide  con  el  parámetro  y no  se  puede  cuantificar  la 
diferencia  entre  ellos,  surge  un  segundo  procedimiento  de  estimación. 


6.3  Estimación  por  Intervalo 

La  Estimación  por  Intervalo  es  un  método  que  permite  estimar  un  parámetro  generando 
dos  números  a partir  de  la  estimación  puntual  del  mismo.  Éstos  números  son  denominados 
límite  Inferior  y límite  superior  de  un  intervalo  que  se  espera  que  incluya  al  verdadero  valor  del 
parámetro.  Este  intervalo  se  denomina  intervalo  de  confianza. 

Idealmente  sería  conveniente  que  el  intervalo  tuviera  las  siguientes  propiedades:  que 
contenga  al  verdadero  valor  del  parámetro  y que  sea  relativamente  de  longitud  pequeña. 

Los  límites  del  intervalo  de  confianza  son  funciones  de  estimadores  puntuales  y por 
tanto  son  variables  aleatorias.  Entonces,  la  ¡dea  es  construir  un  intervalo  aleatorio  que,  con 
cierta  certeza  (confianza),  cubra  al  verdadero  valor  a ser  estimado. 

Definición  3:  El  nivel  de  confianza,  1— a,  es  la  probabilidad  de  que  el  intervalo  aleatorio 
contenga  al  verdadero  valor  del  parámetro. 

Desde  el  punto  de  vista  práctico,  el  nivel  de  confianza  indica  la  fracción  de  veces,  en  un 
muestreo  repetitivo,  que  los  intervalos  contendrán  al  parámetro  de  interés.  SI  el  nivel  de 
confianza  asociado  al  intervalo  fuera  alto,  entonces  se  estaría  altamente  confiado  de  que  un 
intervalo  de  confianza  particular,  construido  a partir  de  una  sola  muestra,  contenga  al  parámetro 
de  interés.  Por  ello  se  utilizan  habltualmente  niveles  de  confianza  altos  (0.90,  0.95  y 0.99). 


6.3.1  Intervalo  de  Confianza  para  la  media  de  una  Distribución  Normal 

Suponga  que  se  desea  realizar  una  estimación  por  intervalo  del  parámetro  p,  de  una 
distribución  normal. 

Dado  que  no  es  seguro  que  cualquier  intervalo  (I,S)  contenga  a p,  puede  afirmarse  que 
P(  l(XuX2,...,Xn))  < p < S(XhX2,...,Xn)  ) = 1 - a 

Para  determinar  los  límites  del  intervalo  se  procede  de  la  siguiente  forma: 


1.  Sobre  la  base  de  una  muestra  de  tamaño  n,  se  determina  el  estimador  puntual  X del 
parámetro  p.  De  la  estandarización  de  la  variable  aleatoria  X~NÍp,a/Vñ)  resulta  la 
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(x  - f-1) 

variable  aleatoria  Z = — que  tiene  distribución  N(0,1). 


a/Vn 

2.  Como  Z involucra  al  parámetro  a estimar  (f.i)  y a su  estimador  puntal  ( X ),  para  encontrar  el 
intervalo  de  confianza  se  plantea  la  Igualdad  P(-a  < Z < a)  = 1— a.  Fijando  el  nivel  de 
confianza  1— a se  obtiene  el  valor  de  abscisa  a de  la  Tabla  C del  Apéndice.  Gráficamente 


-a  0 a 

Gráfico  1:  Valores  de  abscisa  correspondientes  a la 
probabilidad  1— a 


3.  A partir  de  la  expresión  P(-a  < Z < a)=  1— a reemplazando  la  variable  Z se  tiene 


r X-f.i  A 
-a  < f=  < a 


J 


a/ Vn 


= 1-a 


Dado  que  se  está  Interesado  en  determinar  un  intervalo  para  jli,  a partir  de  la  expresión 
anterior  se  trabaja  algebraicamente  de  la  siguiente  manera: 


- a -V=  < (x  - |a)  < a ~^= 

V Vn  Vn  J 


= 1-a 


- a -V=  - X < — (4.  < a -V=  - X 
V vn  Vn  J 


= 1-a 


0 Y a 1 

X - a —j=  < jii  < X + a —j= 

V Vn  Vn  J 


= 1-a 


(6.1) 


De  donde  se  pueden  obtener  las  siguientes  expresiones  explícitas  de  los  límites  Inferior  (I) 
y Superior  (S): 

— <j  — a 

1 = X-a—¡=  y S = X + a—¡= 

Vn  Vn 

Es  Importante  notar  que  los  límites  del  Intervalo  son  variables  aleatorias  dado  que,  en 
este  caso,  X es  una  variable  aleatoria.  Luego  se  ha  construido  un  Intervalo  Aleatorio  con  nivel 
1-a  de  confianza  para  la  media  |u  de  una  población  Normal  con  desviación  a conocida. 

En  cuanto  al  significado  del  Nivel  de  Confianza,  si  éste  fuera  0.90,  se  espera  que  de 
cada  100  intervalos  de  confianza  construidos  a partir  de  100  muestras  de  tamaño  fijo  n, 
aproximadamente  90  de  ellos  contengan  el  verdadero  valor  de  ju  y 10  intervalos  no. 
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Gráficamente  se  tiene 

50  4 


°-L , 

ri 

Gráfico  2:  50  Intervalos  de  confianza  del  90%  para  p , 
con  muestras  de  tamaño  fijo 

Se  puede  observar  claramente  que  p es  un  valor  fijo  (desconocido)  y que  los  intervalos 
son  aleatorios  y “tratan”  de  cubrir  a p. 

Retomando  el  Problema  1.1,  suponiendo  que  el  peso  de  los  novillos  de  la  raza 
Charoláis  a los  que  se  les  suministró  la  nueva  dieta  tiene  un  desvío  estándar  de  4.18  kg. 
resulta  que  X~N(p,4.18).  Se  seleccionan  16  novillos  de  la  raza  en  estudio  y se  les  aplica  la 
nueva  dieta,  obteniendo  un  peso  promedio  de  413  kg.  En  base  a esta  información  se 
construye  el  intervalo  de  confianza  para  el  peso  medio  p de  todos  los  novillos  a los  que  se  les 
podría  aplicar  la  nueva  dieta. 

Para  este  caso  se  tienen  los  siguientes  datos:  g=4.18,  n=16  y X = 413  . Si  se  fija  un 
nivel  de  confianza  1— a=0.99,  de  la  expresión  P(-a<  Z < a)  = 0.99  se  obtiene  el  valor  de 
abscisa  a=2.57  (Tabla  C). 

Substituyendo  a,  g y n en  la  expresión  (6.1)  se  obtiene 

P^X-2.57.^<p<X  + 2.57.^j  = 0.99 

Cuando  se  reemplaza  la  media  muestral  por  el  valor  particular,  la  expresión  anterior  deja  de 
contener  la  variable  aleatoria  X y por  lo  tanto  no  tiene  sentido  calcular  una  probabilidad. 
Entonces  se  reemplaza  la  P de  probabilidad  por  la  C de  confianza,  o sea 

C^413-2.57.^<p  <413  + 2.57.  = 0.99 

C(410.31<  p < 415.69)=0.99 

Esta  expresión  debe  ser  interpretada  de  la  siguiente  manera  “existe  una  confianza  del 
99%  de  que  el  intervalo  (410.31  , 415.69)  cubra  al  peso  promedio  de  todos  los  novillos 
Charoláis  con  la  nueva  dieta”. 

Dado  que  una  de  las  características  que  se  espera  de  un  intervalo  de  confianza  es  que 
tenga  longitud  pequeña,  es  interesante  ver  cómo  manejar  esta  longitud. 
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La  precisión  de  un  intervalo  está  en  función  de  su  longitud,  en  el  sentido  de  que  un 
intervalo  de  longitud  grande  será  considerado  de  poca  precisión.  Hay  dos  formas  de  construir 
intervalos  de  confianza  más  precisos: 

■ Disminuyendo  el  nivel  de  confianza  1— a. 

■ Aumentando  el  tamaño  de  muestra  n. 

Para  entender  estas  afirmaciones  basta  observar  la  expresión  (6.1). 


En  la  mayoría  de  los  casos  reales  la  desviación  estándar  poblacional  será  desconocida, 

2 

luego  el  intervalo  presentado  no  es  el  más  utilizado.  En  ese  caso  se  usa  la  varianza  muestral  S 
para  estimar  a o“  y el  intervalo  de  confianza  para  la  media  jli,  con  un  nivel  de  confianza  (1-a), 
resulta 


í_  S _ s A 

X - a • —j=  < jli  < X + a • —j= 

\ Vn  Vn  J 


= 1-a 


„ X — Ll 

donde  la  variable  Z = ~¡=~  tn_i  y por  lo  tanto  la  abscisa  a=tn_i  i_a/2  se  obtiene  de  la  Tabla 

S/ Vn 

D del  Apéndice. 


6.3.2  Intervalo  de  Confianza  para  varianza  de  una  Población  Normal 


Existen  situaciones  en  la  práctica  donde  el  parámetro  de  interés  es  la  varianza 
poblacional;  por  ejemplo  cuando  se  desea  conocer  la  variabilidad  en  instrumentos  de  medición 
si  la  variable  en  estudio  tiene  distribución  Normal  el  problema  se  reduce  a generar  un  Intervalo 

2 

de  confianza  para  la  varianza  de  una  distribución  Normal  (g“). 

2 

El  estimador  puntual  de  la  varianza  poblacional  es  la  varianza  muestral  S , para  la  que 
(n  - 1)  S2  2 

se  verifica  que  2 ~ xn-i  (ver  Sección  5.5.3).  Fijando  un  nivel  de  confianza  1-a  y 

a' 

trabajando  algebraicamente  a partir  de  la  siguiente  igualdad 


(n-l)S2  u 

a < i — < b 


G 


= 1-a 


J 


se  obtiene  el  Intervalo  de  confianza  para  la  varianza  de  una  población  normal 


pÍ— (n-l)S2  < g2  < — (n - l)S2 
Ib  a 


= 1-a 


1 2 1 2 

de  donde  resultan  los  límites  I = — (n-l)S~y  S = — (n-l)S"",  con  a = %l_ll_an  Y 

b a 

b = xLi  a/2  ( T abla  E del  Apéndice). 


6.3.3  Intervalo  de  Confianza  para  la  proporción  de  una  Distribución  Binomial 

Suponga  que  se  desea  construir  un  intervalo  de  confianza  para  la  proporción  de  éxito  p, 
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de  una  distribución  Binomial.  Para  ello  se  tomará  el  siguiente 

Problema  6.1:  El  dueño  de  una  cabaña  desea  comprar  animales  vacunos  de  una  cierta  zona  y 
antes  de  realizar  la  compra  desea  estimar  la  proporción  de  animales  afectados  por  añosa  en 
dicha  zona.  Para  dar  una  respuesta  al  dueño  de  la  cabaña  se  seleccionaron  al  azar  20  animales 
vacunos  de  la  zona  registrándose  si  estaban  o no  afectados  con  añosa. 

La  variable  que  se  observa  es  X:  “Número  de  animales  vacunos  afectados  entre  los  20 
seleccionados”,  la  cual  tiene  distribución  B(20,p). 

Para  construir  el  intervalo  de  confianza  es  necesario  determinar  el  estimador  puntual 
del  parámetro,  su  esperanza  y su  varianza,  para  lo  cual  se  procede  de  la  siguiente  manera: 

1.  Si  en  las  n repeticiones  del  Ensayo  de  Bernoulli  hubo  X éxitos,  el  estimador  puntual  para  la 

X 

proporción  de  éxitos  es  p = — . 

n 


2.  Como  el  estimador  p es  una  variable  aleatoria  se  pueden  determinar  las  características 
numéricas  tales  como 


e(p)  = eÍ— j = — E(X)  = p 

Vn/  n 


Var(p)  = Varí—]  = \ Var(x)  = P*(¡  P\ 
w V nJ  n n 


Estos  resultados  se  obtienen  utilizando  las  propiedades  E2  y V2  del  Capítulo  4. 

3.  Por  la  relación  entre  la  distribución  Normal  y la  distribución  Binomial,  válida  para  valores  de 
n“  razonablemente  grande”  (dependiendo  de  lo  cercano  que  esté  p de  1/2) 


p ~ N 


P- 


p.(l-p) 


n 


entonces  Z = 


p-p 


a/p  • í1  - P)/n 


n(o,i). 


4.  La  variable  Z no  puede  utilizarse  para  encontrar  los  límites  del  intervalo  dado  que  el  desvío 
de  p (y] p • (1  — p) / n ) depende  del  parámetro  desconocido  p.  Para  resolver  este  problema 
se  recurre  al  estimador  puntual  de  p resultando  el  desvío  estimado  • (1  - p)/n  . A partir 

p-p 

de  esto  surge  la  variable  Z’=  , — que  tiene  distribución  aproximadamente 

vM1-P)/n 

Normal  y puede  utilizarse  para  construirse  el  intervalo  deseado. 

Entonces  el  intervalo  de  confianza  para  el  parámetro  p de  nivel  (1-a)  está  dado  por 

p(p  - a7p(l-p)/n  < p < p + aVp(l-p)/n)  = 1 - a 


donde  a se  obtiene  de  la  Tabla  C del  Apéndice. 

Retomando  el  Ejemplo  4,  si  de  20  animales  resultaron  15  afectados  por  añosa  y se 

X 15 

fija  un  nivel  de  confianza  del  95%,  el  estimador  puntual  de  p resulta  p = — = — = 0.75  y por 


n 20 


lo  tanto  el  intervalo  de  confianza  es 


C 


0.75-1.96. 


0.75.0.25 


12 


<p<  0.75  + 1.96. 


0.75.0.25 


12 


= 0.95 
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C(0.505  <p<  0.995)  = 0.95 


Esto  se  interpreta  como  “hay  una  confianza  del  95%  que  la  proporción  de  animales 
afectados  por  añosa  es  un  valor  que  está  entre  el  0.505  y el  0.995”. 


Ejercicios  de  Aplicación 
1. 

Se  desea  estudiar  el  efecto  sobre  el  aumento  de  peso  de  una  dieta  rica  en  vitamina  A, 
en  ratas  de  la  especie  Calomys  Musculynus  desde  el  nacimiento  hasta  la  edad  de  tres 
meses.  Estudios  anteriores  han  determinado  que  la  variable  aumento  de  peso  puede 
ajustarse  con  una  distribución  normal,  de  varlanza  9 gr2.  Para  estimar  el  aumento  de 
peso  promedio,  se  suministró  la  dieta  a 16  de  estas  ratas  obteniendo  una  media  de  61 

gr- 

a)  ¿Cuál  es  la  variable  que  permitirá  estudiar  el  efecto  de  la  nueva  dieta?  ¿A  qué  tipo 
corresponde  esta  variable  y cuál  es  su  distribución  de  probabilidades?. 

b)  ¿Qué  se  desea  estimar  ? ¿Ese  valor,  es  de  la  muestra  o de  la  población?  ¿Cuál  es 
su  relación  con  la  variable?. 

c)  ¿Con  que  información  poblaclonal  y muestral  se  cuenta?. 

d)  Para  el  problema  de  la  estimación  por  intervalos  ¿Qué  variable  se  construye  y cuál 
es  su  distribución?. 

e)  Estimar  el  parámetro  en  cuestión  con  una  confianza  del  95%  e indicar  las 
conclusiones. 


Un  dermatólogo  que  investiga  cierto  tipo  de  cáncer  de  piel,  desea  estimar  el  tiempo 
promedio  hasta  la  desaparición  del  mismo  con  un  nuevo  fármaco  (suponga  que  el 
tiempo  se  distribuye  normalmente).  Para  ello  induce  este  cáncer  en  25  ratas  y las  trata, 
obteniéndose  un  promedio  de  132  hs.  para  la  desaparición  de  la  enfermedad  con  un 
desvío  estándar  de  101  hs. 

a)  ¿Cuál  es  la  variable  que  permitirá  estudiar  el  comportamiento  del  nuevo 
medicamento?  ¿A  qué  tipo  corresponde?. 

b)  ¿Qué  se  desea  estimar  ? ¿Ese  valor,  es  de  la  muestra  o de  la  población?  ¿Cuál  es 
su  relación  con  la  variable?. 

c)  ¿ Cuál  es  la  Información  poblaclonal  y cuál  es  la  brindada  por  el  experimento?. 

d)  Efectuar  la  estimación  del  parámetro  de  Interés,  con  una  confianza  del  99%  e 
indicar  las  conclusiones. 


Se  desea  estimar  con  una  confianza  del  99%,  el  contenido  promedio  de  alquitrán  de 
cierta  marca  de  cigarrillos  (suponga  que  el  contenido  de  alquitrán  se  distribuye 
normalmente).  Para  ello  se  selecciona  una  muestra  de  36  cigarrillos,  obteniéndose  una 
media  de  17,2  mg.  y una  desviación  estándar  de  2 mg. 
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Un  grupo  de  investigación  desea  estimar  el  porcentaje  medio  de  sacarosa  en  la  caña  de 
azúcar  luego  de  habérsele  aplicado  un  producto  compuesto  con  sales  de  molibdeno  y 
otros  metales  que  tienden  a inhibir  procesos  enzimáticos.  (suponga  que  el  porcentaje 
se  distribuye  normalmente).  Para  ello  fueron  seleccionadas  7 plantas  de  caña  de  azúcar 
a las  cuales  de  les  aplicó  el  producto,  obteniéndose  una  media  de  0,84%  de  sacarosa  y 
un  desvío  de  0,18%  de  sacarosa. 

a)  ¿Cuál  es  la  variable  en  estudio?  ¿Qué  representan  los  parámetros  de  la  distribución 
de  la  variable  en  este  problema  ? 

b)  Estimar  el  porcentaje  medio  de  sacarosa  con  un  90%  de  confianza. 

c)  ¿Podría  mejorar  la  precisión  del  intervalo  de  confianza  para  el  porcentaje  medio  de 
sacarosa?  ¿Cómo  lo  realizaría? 


Los  límites  de  confianza  del  95%  para  la  media  de  una  poblaclonal  son  20  y 30.  ¿Cuál 

de  las  siguientes  afirmaciones  es  correcta? 

a)  De  cien  medias  muéstrales  extraídas  al  azar  de  esta  población  cerca  de  95  de  ellas 
estarán  entre  20  y 30. 

b)  De  cien  medias  poblaclonales  extraídas  al  azar  de  esta  población  cerca  de  95 
estarán  entre  20  y 30. 

c)  Hay  una  confianza  del  95%  que  los  límites  20  y 30  cubran  a la  verdadera  media 
poblaclonal. 


A continuación  se  presentan  los  promedios  y desvíos  correspondientes  a tres  muestras 
de  tamaño  16  provenientes  de  una  población  con  distribución  Normal  de  media  p=80: 


Muestra 

Media 

Desvío 

1° 

77.76 

8.45 

2° 

74.46 

5.27 

3o 

78.58 

7.29 

a)  A partir  de  los  datos  muéstrales  construir,  para  cada  muestra,  un  intervalo  de 
confianza  del  95%  para  la  media  de  la  distribución. 

b)  ¿Contienen  los  intervalos  al  parámetro  en  cuestión? 

c)  Explique  los  resultados  de  lo  ocurrido  en  b)  a partir  del  significado  de  la  confianza. 


Se  desea  estimar,  con  un  nivel  del  90%,  la  proporción  de  personas  que  tienen  sangre 
de  tipo  A positivo  en  una  cierta  ciudad.  Para  ello  se  tomó  una  muestra  aleatoria  de  400 
personas  encontrándose  125  con  sangre  de  tipo  A positivo. 


En  el  contexto  del  Ejercicio  10  del  Capítulo  5,  suponga  que  se  desconoce  el  valor  del 
gasto  medio  por  semana,  y que  sólo  se  sabe  de  la  variable  gasto  semanal  que  su 
distribución  es  normal.  SI  se  elige  una  muestra  de  30  semanas  ¿qué  valor  debería 
asumir  la  varlanza  de  tal  modo  que,  con  un  99%  de  confianza,  la  media  del  gasto 
semanal  se  encuentre  entre  $290  y los  $330?. 
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Objetivos: 

♦ Analizar  un  problema  dado  y plantear  las  hipótesis  correspondientes. 

♦ Interpretar  la  información  obtenida  a través  de  una  prueba  de  hipótesis. 

♦ Distinguir  entre  Intervalo  de  Confianza  y Prueba  de  Hipótesis  en  cuanto  a su  utilidad. 


7.1  Introducción 

La  Inferencia  estadística  brinda  métodos  que  permiten,  a través  de  una  Muestra, 
obtener  información  acerca  de  alguna  característica  de  la  Población  de  la  cual  fue  extraída. 

En  el  Capítulo  6 se  estudiaron  dos  métodos  de  estimación  denominados  Estimación 
Puntual  y Estimación  por  intervalos.  A continuación  se  presenta  otro  método  de  inferencia 
llamado  Prueba  de  Hipótesis  (o  Test  de  Hipótesis). 

Definición  1:  Una  Prueba  o Contraste  de  Hipótesis  es  un  procedimiento  mediante  el  cual  se 
investiga  la  verdad  o falsedad  de  una  hipótesis  contrastada. 


7.2  Prueba  de  hipótesis  para  la  media  de  una  Distribución  Normal 

En  base  al  Problema  1.1  se  plantea  la  siguiente  situación:  “Mediante  una  nueva  dieta 
se  espera  que  se  incremente  el  peso  medio  de  novillos  de  la  raza  Charoláis  de  determinado 
peso  inicial”. 

En  otras  palabras,  lo  que  se  desea  es  confirmar  si  la  nueva  dieta  es  mejor  que  la  dieta 
usual.  Surge  entonces  la  necesidad  de  realizar  una  comparación,  en  realidad  se  desea  probar, 
por  ejemplo,  si  el  peso  medio  obtenido  con  la  nueva  dieta  es  mayor  que  el  peso  medio  obtenido 
con  la  dieta  utilizada  anteriormente.  Para  resolver  este  problema  se  utilizará  una  prueba  de 
hipótesis,  para  lo  que  es  necesario  en  primer  lugar  traducir  lo  anterior  en  términos  estadísticos. 

Se  comienza  por  Identificar  para  este  caso  los  elementos  necesarios  para  realizar  el 
análisis  estadístico. 

■ Unidad  experimental:  Un  novillo  de  raza  Charoláis,  con  un  cierto  peso  inicial. 

■ Población  de  Unidades:  Todos  los  novillos  de  raza  Charoláis  de  cierto  peso  inicial. 

■ Variable  en  estudio:  Peso 

■ Población  Estadística:  El  peso  de  todos  los  novillos  de  cierto  peso  inicial  raza  Charoláis. 


La  situación  anterior  puede  ser  esquematizada  como  sigue 


Introducción  a la  Estadística  Vara  las  Ciencias  de  la  Vida 


P.U.  P.E. 


Las  características  numéricas  de  una  población  estadística  son  E(X)  y Var(X),  que  en 
este  caso  indican  el  peso  promedio  y la  varianza  del  peso  de  todos  los  animales  sujetos  a la 
nueva  dieta,  ambos  desconocidos. 


Por  resultados  de  experiencias  previas  se  sabe  que  el  peso  medio  de  todos  animales 


con  la  dieta  que  se  venía  utilizando,  es  de  390 
lo  que  se  desea  es  comparar  este  valor  con  el 
dieta,  lo  que  se  puede  expresar  de  la  siguiente 

I) 

Ho:  El  peso  medio  de  todos  los  animales  con 
la  nueva  dieta  es  Igual  al  peso  medio  de 
todos  los  animales  con  la  dieta  usada 
habitualmente. 


kg. , valor  que  se  puede  denotar  como  juq;  luego 
peso  medio  de  todos  los  animales  con  la  nueva 
forma 

II) 

Hi:  El  peso  medio  de  todos  los  animales  con 
la  nueva  dieta  es  superior  al  peso  medio  de 
todos  los  animales  con  la  dieta  usada 
habitualmente. 


Las  situaciones  I)  y II)  pueden  ser  escritas  en  lenguaje  estadístico,  como  se  indica  a 
continuación 

H0:  |lx  = (0.0  Hi:  jo  > pío 

donde 

jo  : indica  el  peso  medio  de  todos  los  novillos  alimentados  con  la  nueva  dieta. 

jlxo:  indica  el  peso  medio  de  todos  los  novillos  alimentados  con  la  dieta  usada  habitualmente. 

La  variable  peso  puede  asumir  dos  distribuciones  normales  diferentes, 


X:  Peso 


N(|u0,cto) 

N(n,a) 


Considerando  que  la  nueva  dieta  puede  modificar  la  media  pero  no  el  desvío  estándar,  se 
supone  a = Go.  Las  dos  distribuciones  que  la  variable  X asume  pueden  visualizar 
gráficamente  de  la  siguiente  manera 


Gráfico  1:  Funciones  de  densidad  correspondientes 
a X ~N(ho,cto)  y X ~N(pi,G0) 
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Para  este  problema  lo  que  se  desea  probar  es: 

Ho:  jii  = 390  kg.  Hi:  jii  > 390  kg. 

En  general  se  puede  dar  la  siguiente 

Definición  2:  La  Hipótesis  Nula  (Ho)  es  la  hipótesis  estadística  cuya  verdad  o falsedad  se  va  a 
establecer  estadísticamente  usando  los  datos  muéstrales  como  evidencia.  La  Hipótesis 
alternativa  (Hi)  es  cualquier  otra  hipótesis  distinta  de  Ho. 

En  la  prueba  para  la  media  de  una  población  normal  Ho:pi=pio.  Mientras  que  Hi  puede 
plantearse  de  una  (y  sólo  una)  de  las  siguientes  formas 

a)  Hi:pi  > pío  b)Hi:pi<pi0  c)  Hi:  pi  * pi0 

Cuando  la  hipótesis  alternativa  es  de  la  forma  como  la  Indicada  en  a)  o b)  la  prueba  es 
unilateral  o de  una  cola  y cuando  la  hipótesis  alternativa  es  de  la  forma  coma  la  indicada  en  c) 
se  dice  que  la  prueba  es  bilateral  o de  dos  colas. 

Para  tomar  una  decisión  sobre  las  hipótesis  planteadas,  se  debe  utilizar  la  Información 
muestral.  Para  ello  se  realiza  un  experimento  aleatorio  (generando  una  muestra  aleatoria  de 
tamaño  n),  que  para  el  problema  planteado  consiste  en  elegir  aleatoriamente  16  animales  de 
raza  Charoláis,  con  cierto  peso  inicial,  a los  que  se  les  suministra  la  nueva  dieta.  Después  de 
un  cierto  tiempo  (prefijado  de  antemano)  se  les  mide  el  peso,  generando  así  la  muestra 

estadística,  de  la  cual  se  obtuvo  X=  413  kg.  y S =5.15  kg. 

Teniendo  en  cuenta  que  X es  un  buen  estimador  de  E(X)=  jlx,  parece  razonable  que 
se  base  la  decisión  de  rechazar  o no  Ho  en  el  valor  de  X . Puesto  que  se  está  Interesado  en 
distinguir  entre  pi=390  kg.  y pi  > 390  kg.  se  debería  rechazar  Ho  cuando  (X— pío)  sea  "muy 
grande",  o sea  se  rechazaría  Ho  cuando  (X  - 390)  sea  mayor  que  una  cierta  constante ; el 
problema  ahora  es  determinar  dicha  constante. 

Para  determinar  dicha  constante  además  de  la  diferencia  (X  - 390)  se  debe  tener  en 

cuenta  la  variabilidad  de  la  población.  Toda  la  información  para  determinar  la  constante  en 
cuestión  puede  ser  resumida  en  una  nueva  variable  aleatoria,  que  recibe  el  nombre  de 
estadístico  de  contraste  y es  denotado  por  s.  Éste  debe  contener  la  Información  de  la  muestra  y 
una  distribución  de  probabilidades  conocida. 


Como  ya  se  vio  en  el  capítulo  anterior,  al  construir  un  intervalo  de  confianza  para  la 
media  de  una  distribución  Normal  es  necesario  saber  si  se  conoce  o no  la  varlanza  de  la 
población  en  estudio,  ya  que  la  distribución  de  la  variable  aleatoria  construida  depende  de  ello. 
Para  una  prueba  de  hipótesis  la  variable  aleatoria  construida  es  el  estadístico  de  contraste  y las 
dos  situaciones  se  presentan  en  las  secciones  siguientes. 

Definición  3:  El  Estadístico  de  Contraste  (s)  es  una  variable  aleatoria  (está  en  función  de 
valores  muéstrales)  cuya  distribución  de  probabilidades  depende  de  la  validez  de  la  hipótesis 
nula. 

Cuando  se  realiza  la  prueba  para  la  media  de  una  población  normal  el  estadístico  s, 
depende  siempre  de  X . 
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7.2.1  Con  varianza  conocida 


Por  lo  expresado  anteriormente,  el  estadístico  de  contraste 


a / Vñ 


es  una  variable  aleatoria  (por  ser  una  función  de  la  variable  aleatoria  X),que  tiene  asociada 
una  distribución  de  probabilidades  que  se  estudiará  a continuación. 


Dado  que  la  variable  en  estudio  X tiene  distribución  Normal  con  parámetros  |u,  y a, 
esto  es,  X~N(|u,,g)  y si  se  tiene  una  muestra  aleatoria  de  tamaño  n,  la  variable 


X ~ n(|4.,C7  / Vñ)  y por  tanto  Z = 


(x~m) 
g / Vñ 


N(0,1). 


Entonces 

• si  vale  Ho  (o  sea  cuando  p=|u,o  ),  e ~ N(0,1); 

|u  ~ f-i  o 

• si  no  vale  Ho  (o  sea  cuando  |u  > jlxo),  s~N(c,l),  donde  c = ~¡= 

g / V n 


Para  determinar  el  valor  de  c,  se  necesita  cuantlflcar  la  diferencia  (|ti-|u,o);  comúnmente 
se  la  considera  en  términos  de  g (jii-jiio=cj,  jlx-¡_Io=2g  o jii-juo=3g).  El  valor  de  esta  diferencia 
siempre  debe  ser  sugerido  por  el  investigador. 


Gráfico  2:  Funciones  de  densidad  correspondientes 
a s ~N(0,1)  y s ~N(c,l) 

Por  otro  lado  se  debe  tener  en  cuenta  que  al  tomar  la  decisión  de  rechazar  o de  no 
rechazar  la  hipótesis  nula  Ho,  no  se  hace  con  un  100%  de  seguridad,  pues  se  está  trabajando 
con  la  información  de  una  muestra  para  obtener  conclusiones  con  respecto  a toda  una 
población.  Por  lo  tanto  la  decisión  puede  ser  errónea,  esto  es,  se  puede  rechazar  Ho  cuando 
en  realidad  vale  o bien  se  puede  no  rechazar  Ho  cuando  ésta  no  vale. 

Se  puede  decir  entonces  que  cuando  se  realiza  una  prueba  de  hipótesis  pueden  ocurrir 
las  situaciones  siguientes 


Vale  Ho 

No  vale  Ho 

Rechazar Ho 

Error  de  tipo  1 

Decisión  Correcta 

No  Rechazar  Ho 

Decisión  Correcta 

Error  de  tipo  II 

Por  lo  tanto 
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Definición  4:  El  Error  de  Tipo  I se  comete  cuando  se  rechaza  Ho  y ésta  en  realidad  vale.  El 
Error  de  Tipo  II  se  comete  cuando  no  se  rechaza  Ho  y ésta  en  realidad  no  vale. 

Así  cualquiera  de  las  dos  decisiones  que  se  pueden  tomar,  pueden  ser  equivocadas  y 
es  Importante  medir  el  riesgo  de  tomar  una  decisión  errónea.  Este  riesgo  se  mide  a través  de 
una  probabilidad,  que  por  ser  una  probabilidad  de  error  debe  tomar  valores  pequeños. 

Definición  5:  El  nivel  de  significación  de  la  prueba  (a)  es  la  probabilidad  de  cometer  error  de 
tipo  I,  es  decir  a =P(cometer  error  tipo  I)=P(seZ  / vale  Ho).  Gráficamente  es  el  área  bajo  la 
curva  sobre  la  zona  de  rechazo. 

Como  se  dijo,  la  ¡dea  es  determinar  una  constante  a partir  de  la  cual  se  pueda  decir 
que  la  nueva  dieta  produjo  mayor  peso  medio  que  la  dieta  habitual.  Esta  constante,  denotada 
usualmente  a,  es  el  valor  crítico  y determina  un  intervalo  llamado  zona  de  rechazo  (Z)  . 

Definición  6:  La  Zona  de  rechazo  (Z)  es  el  conjunto  de  valores  del  estadístico  de  contraste 
que  lleva  a descartar  la  Ho.  La  constante  a asociada  a Z es  el  valor  crítico. 

Para  el  Problema,  la  zona  de  rechazo  es 


H E 

0 a 

Gráfico  3:  Zona  de  Rechazo 

Para  determinar  el  valor  de  a se  debe  tener  en  cuenta  Hi,  la  distribución  del  estadístico 
de  contraste  bajo  Ho  y el  valor  de  a.  Para  este  caso  particular  se  toma  a=0.01  como  nivel  de 
significación  de  la  prueba.  En  el  siguiente  gráfico  se  pueden  observar  el  nivel  de  significación  y 
su  correspondiente  zona  de  rechazo. 


Gráfico  4:  Zona  de  rechazo  y nivel  de  significación 

Luego  para  encontrar  el  valor  numérico  de  la  constante  a se  plantea  la  siguiente 
expresión  P(s~N(0,l)>a)=0.01,  de  donde  se  obtiene  a=2. 32. (Tabla  C del  Apéndice). 

El  intervalo  [a,+°o)=[2.32,+°o)  es  entonces  la  Zona  de  Rechazo  y la  constante  a=2.32 
es  el  Valor  Crítico  de  la  prueba. 

Notar  que  los  valores  que  puede  asumir  el  estadístico  de  contraste  son  números  reales 
(gráficamente  se  ubican  en  el  eje  de  las  abscisas  o eje  x). 

Gráficamente: 
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Gráfico  5:  Zona  de  rechazo  y nivel  de  significación 
para  el  Problema  1.1 


Para  tomar  la  decisión  se  debe  calcular  el  valor  numérico  del  estadístico,  que  se  denota 
por  sc.  Para  determinar  dicho  valor  es  necesario  usar  la  desviación  estándar  de  la  población  en 
estudio,  que  en  este  caso  se  supone  conocida  e igual  a 4.18.  Luego  el  valor  numérico  del 
estadístico  resulta 


A partir  de  la  zona  de  rechazo 
regla  para  tomar  una  decisión: 

• Si  sc  € Z se  rechaza  Ho. 

• Si  sc  £ Z no  se  rechaza  Ho. 

Para  este  problema,  el  valor  numérico  del  estadístico  es  sc=22.01,  que  pertenece  a la 
zona  de  rechazo,  luego  se  rechaza  la  hipótesis  nula  con  una  probabilidad  de  cometer  error  de 
tipo  I de  0.01. 

Conclusión:  El  peso  medio  de  los  animales  con  la  nueva  dieta  es  mayor  que  el  peso  medio  de 
los  animales  con  la  dieta  usada  habitualmente. 

En  la  secuencia  presentada  anteriormente  se  fija  el  valor  de  a antes  de  realizar  el 
experimento.  No  siempre  se  puede  o se  quiere  especificar  este  valor,  por  ejemplo  porque  la 
persona  que  toma  la  decisión  no  es  quien  realiza  la  investigación.  Por  otra  parte  la  elección  de 
a es  arbitraria  y puede  suceder  que  con  el  mismo  conjunto  de  datos  se  llegue  a conclusiones 
diferentes.  Una  alternativa  para  evitar  esta  ambigüedad  es  determinar  en  primer  lugar  el  valor 
del  sc  (después  de  realizado  el  experimento)  y luego  calcular  una  probabilidad  que  depende  de 
éste,  llamada  valor  p de  la  prueba. 

Definición  7:  El  valor  p de  la  prueba  es  la  mínima  probabilidad  de  error  de  Tipo  I que  lleva  a 
rechazar  la  Hipótesis  nula. 

Cuando  la  hipótesis  alternativa  es  Hpp  > po.  el  valor  p se  calcula  como 

p = P(s>sc) 


413-390 


= 22.01 


4.18/  16 

y del  valor  numérico  del  estadístico  se  establece  una 


que  se  manifiesta  en  el  siguiente  gráfico 
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Gráfico  6:  Valor  p 

Para  tomar  la  decisión  en  base  al  valor  p se  debe  fijar  la  máxima  probabilidad  de  error 
de  tipo  I que  se  está  dispuesto  a cometer,  y compararla  con  el  valor  p.  SI  el  valor  p es  menor 
que  esta  probabilidad  se  rechaza  la  hipótesis  nula  con  probabilidad  exacta  p de  cometer  error 
de  tipo  I. 

Notar  que  el  valor  p de  la  prueba  depende  de  la  hipótesis  alternativa,  de  la  distribución 
del  estadístico  y de  la  información  brindada  por  la  muestra. 

Para  el  Problema  1.1  como  Hpp,  > 390  kg.,  s~N(0,l)  si  vale  Ho  y sc=22.01,  el  valor 
p es  p = P(  s > 22.01)=0  por  lo  cual  se  rechaza  H0  con  probabilidad  prácticamente  nula  de 
cometer  error  de  tipo  I. 


7.2.2  Con  varianza  desconocida 

En  la  mayoría  de  los  casos  el  investigador  no  tiene  ninguna  sospecha  sobre  el  valor  de 
a.  En  este  caso  la  prueba  de  hipótesis  para  la  media  de  una  distribución  Normal  se  construye 
de  manera  similar  a lo  desarrollado  en  la  sección  anterior.  La  diferencia  está  en  que  se  usa  S 
como  estimador  de  a,  lo  que  determina  un  cambio  en  la  expresión  y en  la  distribución  del 
estadístico  s. 

Así,  en  este  caso  se  tiene  que 

SI  vale  Hq,  s~tn_i  central 


SI  no  vale  Ho,  s~tn_i  no  central 

donde  tn_i  Indica  la  distribución  t - Student  con  n-1  grados  de  libertad  (g.l.)  centrada  o no 
alrededor  de  cero. 

Notar  que,  al  cambiar  la  distribución  del  estadístico,  el  valor  crítico  se  obtiene  de  la 
Tabla  t de  Student. 

En  el  caso  que  el  investigador  tenga  alguna  sospecha  sobre  el  valor  de  g,  se  puede 
realizar  una  prueba  de  hipótesis  como  la  que  se  desarrolla  en  la  Sección  7.3.  En  dicha  prueba, 
si  se  rechaza  Ho  el  estadístico  que  corresponde  es  el  de  la  presente  sección;  si  no  se  rechaza 
Hq  se  puede  suponer  G=Go  y usar  el  estadístico  presentado  en  la  sección  anterior. 


s = 


X-p0 
S/  n 
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7.2.3  Algunas  consideraciones  importantes 

Así  como  el  riesgo  de  cometer  error  de  tipo  I se  mide  con  una  probabilidad  (nivel  de 
significación),  el  riesgo  de  cometer  error  de  tipo  II  también  se  mide  con  una  probabilidad: 

l-P=P(cometer  error  de  Tipo  II)  = P(no  rechazar  Ho  dado  que  no  vale  Ho). 

Por  otra  parte  la  probabilidad  de  no  cometer  error  de  tipo  II  se  llama  Potencia  de  la 
prueba  y es 

P=P(no  cometer  error  de  Tipo  II)  = P(rechazar  Ho  dado  que  no  vale  Ho) 

La  potencia  de  la  prueba  indica  la  capacidad  o “poder”  de  la  prueba  para  rechazar 
correctamente  una  Ho  falsa. 

Gráficamente  las  probabilidades  de  error  de  tipo  I y II  y la  potencia  de  la  prueba  son: 


k\\1  Probabilidad  de  errar  de  tipo  II  =1-  16 
Y/Á  Probabilidad  de  errar  de  tipo  1=  Q 


Gráfico  7:  Probabilidades  de  error  de  tipo  I y II  y 
potencia  de  la  prueba 


Cuando  el  investigador  decide  fijar  el  valor  de  a debe  analizar  qué  tipo  de  error  es  más 
grave  cometer  (si  el  Error  de  Tipo  I o el  de  Tipo  II)  . SI  es  más  grave  el  Error  de  Tipo  I deberá 
tomar  un  valor  pequeño  de  a,  teniendo  en  cuenta  que  de  esa  manera  se  aumenta  la 
probabilidad  de  cometer  el  Error  de  Tipo  II.  Y si  es  más  grave  cometer  el  Error  de  Tipo  II  deberá 
fijar  un  valor  de  a más  grande,  porque  de  esa  manera  se  asegura  que  disminuya  la 
probabilidad  de  cometer  Error  de  Tipo  II  (observar  Gráfico  7). 

La  posibilidad  de  cometer  un  error  (de  Tipo  I o II)  siempre  está  presente,  pues  se  trata 
de  obtener  alguna  información  sobre  la  población  a través  de  una  muestra  (aunque  ésta  sea 
representativa  de  la  población). 

La  forma  de  la  zona  de  rechazo  depende  de  la  hipótesis  alternativa 
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a)  Hi:  jlx  > |0o  Z=[a,+oo) 


b)  Hi:  jlx  < jlxo  Z=[-co,-a) 


c)  Hi:  jli  ^ jlxq  Z=[-oo,-a)u[a,+Qo) 


Gráfico  8:  Formas  de  la  zona  de  rechazo  de  acuerdo  a la  Hi 


7.3  Prueba  de  hipótesis  para  la  varianza  de  una  Distribución  Normal 

Existen  situaciones  en  la  práctica  donde  el  parámetro  de  interés  es  la  varianza 
poblaclonal  (por  ejemplo  si  se  desea  conocer  la  variabilidad  en  instrumentos  de  medición).  En 
otros  casos,  como  el  presentado  al  final  de  la  Sección  7.2.2,  para  decidir  qué  estadístico  usar 
en  la  prueba  de  hipótesis  para  la  media  se  debe  determinar  si  la  varianza  es  distinta  de  un 
valor  prefijado.  Entonces,  bajo  el  supuesto  de  la  que  la  variable  en  estudio  tiene  distribución 
Normal,  estos  problemas  se  reducen  a realizar  una  prueba  para  la  varianza  de  una  distribución 
Normal.  Las  hipótesis  para  este  caso  y el  procedimiento  a seguir  son  los  siguientes. 

2 

SI  el  investigador  sospecha  que  la  varianza  es  un  valor  conocido  aG  , entonces  las 
hipótesis  a plantear  son: 

tt  2 2 tt  2_l  2 

H0:  a =a0  Hi:  a ^a0 
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y el  estadístico  de  contraste  es 


s = 


(n-l)-S' 


a. 


si  vale  Ho,  s ~%n-i  central 


si  no  vale  Ho,  s ~%n-i  no  central 


Como  en  las  pruebas  anteriores,  prefijando  el  valor  del  nivel  de  significación  a se 
determina  la  zona  de  rechazo  Z,  la  cual  en  este  caso  particular  es  de  la  forma 
Z=(0,a]u[b,+co)  con  a=rn_1;1_a/2  y b=xL1;a/2-  Gráficamente 


Gráfico  9:  Zona  de  rechazo  y nivel  de  significación 

En  base  al  valor  numérico  del  estadístico  y a la  zona  de  rechazo  determinada,  la 
decisión  y conclusión  pueden  ser: 

• si  se  rechaza  Ho  se  puede  afirmar  que  la  varlanza  en  cuestión  es  distinta  al  valor  postulado 

2 

g“  con  probabilidad  de  cometer  Error  de  Tipo  I Igual  a a. 

• si  no  se  rechaza  Ho  se  puede  decir  que  no  hubo  suficiente  evidencia  para  afirmar  que  la 

2 

varlanza  en  cuestión  es  distinta  al  valor  postulado  g“  , con  probabilidad  de  cometer  error  de 
tipo  II. 


7.4  Prueba  de  hipótesis  para  la  proporción  de  una  Distribución  Binomial 
para  muestras  de  tamaños  grandes 

Retomando  el  Problema  6.1,  suponga  que  se  desea  determinar  si  la  proporción  p de 
animales  afectados  por  añosa  en  dicha  zona  es  diferente  de  0.80.  Para  ello  se  seleccionan 
120  animales  y se  cuenta  el  número  de  animales  afectados  por  añosa  encontrándose  90  de 
ellos  afectados. 

Se  sabe  que  la  variable  X:  número  de  animales  afectados  en  una  selección,  es  una 
variable  aleatoria  que  tiene  distribución  Bernoulli  de  parámetro  p desconocido.  Como  en  el 

120 

Capítulo  anterior,  se  define  Y = XX¡  donde  Y~B(120,p). 

i=l 
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Utilizando  la  relación  entre  las  distribuciones  Blnomlal  y Normal,  cuando  n es  grande, 
la  prueba  de  hipótesis  se  puede  resumir  en  los  siguientes  pasos: 

1.H0:p=0.80  Hi:  p^0.80 

SI  vale  Hq,  s ~ N(0,1) 


SI  no  vale  Ho,  s ~ N(c,l) 

3.  La  zona  de  rechazo  Z=(-co,-a]u[a,+oo).  SI  se  fija  un  nivel  de  significación  a=0.05,  se  tiene 
que  el  valor  critico  es  a=1.96. 

4.  Para  determinar  el  valor  numérico  del  estadístico  se  debe  calcular 


p = — = — = 0.75  y el  Des(p)  = JO.80 . = 0.0365 , luego  el  sc=-1.37 

n 120  V 120 

5.  Como  el  sc  no  pertenece  a la  zona  Z,  entonces  podemos  concluir  que  no  hay  evidencias 
para  decir  que  la  proporción  de  animales  afectados  por  añosa  es  distinta  de  0.80. 

Para  casos  como  éste,  la  hipótesis  alternativa  también  puede  ser  unilateral  (por  mayor 
o menor)  según  lo  que  se  desea  probar. 


7.5  Prueba  de  hipótesis  para  la  diferencia  de  medias  de  dos 
distribuciones  Normales 


7.5.1  Muestras  Independientes 

En  los  ejemplos  analizados  hasta  ahora  se  han  estudiado  situaciones  en  las  cuales  el 
interés  era  obtener  información  sobre  las  características  numéricas  de  una  distribución  normal 
(media  o varlanza).  En  general  ésta  no  será  la  situación  que  más  comúnmente  se  presenta,  ya 
que  muchos  problemas  involucran  más  de  una  distribución  normal,  y por  tanto  se  debe  saber 
cómo  comparar  los  parámetros  en  estos  casos. 

En  cada  una  de  las  siguientes  situaciones  el  investigador  desea  comparar  las  medias 
de  dos  distribuciones  (cuando  se  tienen  más  de  dos  distribuciones  en  estudio  se  utiliza  la 
técnica  presentada  en  el  capítulo  siguiente). 

1.  Un  gastroenterólogo  desea  comparar  dos  dietas  para  curar  la  úlcera  péptica. 

2.  El  delegado  de  salud  pública  compara  niveles  de  inmunización  de  difteria  en  niños  de  dos 
secciones  de  una  ciudad. 

3.  Un  ingeniero  agrónomo  compara  dos  fertilizantes  A y B aplicados  sobre  una  variedad 
determinada  de  maíz. 

4.  Un  veterinario  desea  comparar  dos  técnicas  de  congelación  de  embriones. 
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En  cada  una  de  las  situaciones  anteriores,  midiendo  /a  variable  de  interés  se  generan 
dos  poblaciones  estadísticas  y la  característica  de  interés  en  ambos  casos  es  la  E(X)  o media 
poblacional. 

Para  resolver  este  tipo  de  problemas  se  debe,  como  antes,  suponer  que  la  variable  en 
estudio  X tiene  distribución  normal.  En  las  cuatro  situaciones  anteriores  se  desea  comparar  pii 
versus  jli2- 

En  general,  en  estas  pruebas  Ho:  jiii  - \i2  =0,  mientras  que  Hi  puede  plantearse  de 
una  (y  sólo  una)  de  las  siguientes  formas: 

a)  Hi:  jlxi  - jLi2  > 0 b)  Hi : jui  - jlx2 < 0 c)  Hi:  jlxi  — jlx2 ^0 

Así  por  ejemplo  en  la  Situación  3 el  ingeniero  agrónomo  desea  comparar  el  rendimiento 
medio  de  la  variedad  de  maíz  que  fue  sometido  al  fertilizante  A versus  el  rendimiento  medio  de 
la  variedad  de  maíz  que  fue  sometida  al  fertilizante  B. 

Las  hipótesis  para  probar  lo  deseado  se  plantean  como: 

H0:  jlxa  - Eb=  0 Hi:  |ha  - Hb  * 0 


las  cuales  indican 


Ho!  El  rendimiento  medio  de  la  variedad  de  maíz  tratada  con  el  fertilizante  A es  igual  al 
rendimiento  medio  de  la  variedad  de  maíz  tratada  con  el  fertilizante  B . 


Hi:  El  rendimiento  medio  de  la  variedad  de  maíz  tratada  con  el  fertilizante  A es  diferente  al 
rendimiento  medio  de  la  variedad  de  maíz  tratada  con  el  fertilizante  B . 

Para  decidir  si  los  dos  fertilizantes  producen  el  mismo  efecto  o no  con  respecto  al 
rendimiento  de  la  variedad  de  maíz  en  estudio  se  deben  elegir  nA  parcelas  de  maíz  y tratarlas 
con  el  fertilizante  A y nB  parcelas  de  maíz  y tratarlas  con  el  fertilizante  B.  Una  suposición  muy 
importante  aquí  es  que  las  parcelas  tratadas  con  uno  y otro  fertilizante  son  independientes. 

Se  puede  representar  la  situación  de  la  siguiente  manera: 


Población.  Estadística 
Fertilizante  A 


Población.  Estadística 
Fertilizante  B 


Luego  las  características  numéricas  de  estas  dos  poblaciones  son 
E(Xa)=lia  y Var(XA)=aA  E(XB)=piB  y VaríXu^aj, 
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Llegado  a este  punto,  se  deben  distinguir  diferentes  casos  que  surgen  del  conocimiento 

2 2 

que  se  tenga  acerca  de  las  varianzas  ga  y Og  que  son: 


En  general,  cuando  se  estudian  dos  distribuciones  normales  sucede  que  tanto  la  media 
como  la  varianza  son  desconocidas.  Sin  embargo  para  facilitar  el  desarrollo  de  la  prueba  se 
presentará  el  caso  en  que  las  varianzas  son  conocidas. 


7.5.1. 1 Varianzas  poblacionales  conocidas 


Suponga  que  la  variable  rendimiento  se  distribuye  como  sigue  Xa~N(]u,a,  cta  ) y 

Xb~N(jub,  gb  ) independientes  donde  se  supone  que  ga  y Og  son  conocidas  pero  |Ua.  y M-b 
son  desconocidas. 

Para  probar  las  hipótesis  planteadas  se  define  un  estadístico  que  está  basado  en  la 
diferencia  de  las  medias  muéstrales  generadas  por  cada  una  de  las  muestras  aleatorias  de 

tamaño  iia  y üb,  o sea  sobre  la  base  de  (xA  — XB).  Dado  que  la  media  muestral  es  una 
variable  aleatoria  con  distribución  normal,  se  tiene  para  este  caso  que 

XA~N(í-Ia^a/a/ÍÍa)  V XB~N(l-lB,<VVñB) 


Se  puede  probar  que  si  XA  y XB  son  dos  variables  aleatorias  independientes,  entonces  la 
diferencia  (xA-XB)  es  una  variable  aleatoria  con  distribución  normal  de  parámetros 


2 2 

^B 


(|4,a— |4b)  Y ~ (Mendenhall,  W.  et.  al.  - 1994). 


n. 


n, 


Entonces  el  estadístico  de  contraste,  cuando  las  varianzas  son  conocidas  es 


Xa  -Xb 


SI  vale  Hq,  s ~ N(0,1) 


Si  no  vale  Hq,  8 ~ N(c,l) 


donde  c = 


W-^b) 
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7. 5.1. 2 Varianzas  poblacionales  desconocidas 


Cuando  las  varianzas  poblacionales  son  desconocidas  se  presenta  el  problema  de 
decidir  si  se  las  puede  considerar 

• i guales ; 

• distintas. 

Para  decidir  esto  se  debe  realizar  la  siguiente  prueba  de  homogeneidad  de  varianzas. 


H0  : — = 1 

aB 


o. 


Hi  : ~Y  * 1 


El  estadístico  de  contraste  es 

SI  vale  Hn,  8 ~ F . , central 

u’  nA-l,nR-l 


8 = 


SI  no  vale  Ho,  s ~ F, „ . . no  central 

u nA-1>nB_1 


donde  (iia-1)  y (n»-  ! ) indican  los  grados  de  libertad  para  el  numerador  y denominador  de  la 
distribución  F de  Fisher  respectivamente. 


La  zona  de  rechazo  para  este  caso  toma  la  forma  Z=(0,a]u[b,+oo)  donde  a y b se  obtienen 
de  tablas  de  la  distribución  F de  Fisher.  Gráficamente 


Gráfico  10:  Zona  de  rechazo  y nivel  de  significación 

1.  SI  no  se  rechaza  Ho  se  puede  asumir  que  las  varianzas  son  ¡guales,  entonces  para  la  prueba 
de  diferencia  de  medias  el  estadístico  de  contraste  es: 

SI  vale  Ho,  s ~ t , central 

u nA+nB  - 


8 = 


xa-xb 


SI  no  vale  Ho,  e ~ t„  , no  central 

nA+nB~¿ 
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donde 


- 


_ j (n  A ^)SA+(nB  ln  A + 


n. 


nA  +nB-2 


nA*nB 


2.  Si  se  rechaza  Ho  entonces  el  estadístico  de  contraste  para  la  comparación  de  las  medias  de 
dos  distribuciones  es: 


Xa-Xb 


í s2 

) aA 

SB 
+ B 

ynA 

nB 

SI  vale  H0,  s ~ tf  central 


SI  no  vale  Ho,  s ~ tf  no  central 


donde  f = 


n , 


n, 


vnA-!y 


\í- 


VnB-ly 


el  Método  de  Satterthwalte. 


2 se  redondea  al  entero  más  cercano.  Este  es  llamado 


7.5.2  Muestras  dependientes  (apareadas) 

En  ciertos  casos  en  los  que  se  desea  comparar  medias  de  dos  distribuciones  es 
posible  tomar  muestras  dependientes,  que  se  pueden  generar  por  dos  situaciones 

• La  misma  unidad  experimental  es  medida  en  dos  ocasiones  diferentes. 

• Las  mediciones  se  obtienen  a partir  de  unidades  experimentales  relacionadas  (por  ejemplo 
gemelos  o cerdos  de  una  misma  camada,  que  tienen  características  genéticas  comunes). 

Ejemplos  de  las  dos  situaciones  anteriores  son: 

1.  Se  mide  el  tono  muscular  de  un  grupo  de  individuos  antes  y después  de  un  ejercicio 
severo. 

2.  Para  comparar  el  efecto  de  dos  antlparasltarlos  en  cerdos  se  seleccionan  pares  de  cerdos 
de  la  misma  camada  y se  aplica  uno  de  los  medicamentos  a uno  de  los  cerdos  del  par  y el 
otro  al  restante. 

Generar  muestras  apareadas  es  lo  Ideal,  pues  de  esta  manera  se  eliminan  las  fuentes 
de  variación  que  puedan  existir  entre  unidades  experimentales  diferentes.  Luego  si  existen 
diferencias  en  las  medias  poblacionales,  éstas  sólo  podrán  ser  atribuidas  al  tratamiento  en 
estudio. 


Si  los  datos  de  la  Muestra  1 se  denotan  Xi¡  y los  de  la  Muestra  2 se  denotan  X2¡ 
(i=1,2,...,n),  las  diferencias  di=Xi¡-X2i  generan  una  nueva  muestra  que  es  la  utilizada  para  la 
prueba. 


En  estas  pruebas  la  hipótesis  nula  es  Ho:  |iid  = 0,  mientras  que  la  hipótesis  alternativa 
Hi  puede  plantearse  de  una  (y  sólo  una)  de  las  siguientes  formas: 

a)Hi:|iid>0  b)Hi:|u,d<0  c)  Hi:  pid  ^ 0 
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donde  p,d  = E(d¡)  = E(Xií-X2¡)  = E(Xi¡)-E(X2í)  o bien  p,d  = jiii  - p,2 

Es  decir,  hacer  inferencia  acerca  de  la  diferencia  de  las  medias  de  dos  tratamientos 
(jui  - fj-o),  es  hacer  inferencia  acerca  de  la  media  de  las  diferencias  (p,d). 

El  estadístico  de  contraste  es: 

Si  vale  Hq,  s ~ tn_i  central 


SI  no  vale  Ho,  s ~ tn.i  no  central 
donde  Xd  y Sd  son  la  media  y el  desvío  estándar  de  la  muestra  de  las  diferencias  d¡. 

En  la  presente  sección  se  presentaron  sólo  las  hipótesis  y el  estadístico  de  contraste, 
dado  que  las  pruebas  de  hipótesis  siguen  como  en  el  caso  de  una  media. 

En  las  pruebas  anteriores  (para  comparar  dos  medias  o dos  varianzas)  se  pueden 
plantear  también  hipótesis  alternativas  unilaterales,  según  lo  que  el  investigador  desee  probar. 


s = 


7.6  Prueba  de  hipótesis  para  la  diferencia  de  proporciones  de  dos 
distribuciones  Binomiales  independientes 


En  muchas  ocasiones,  el  interés  recae  en  comparar  las  proporciones  de  ocurrencia  de 
cierto  suceso  en  dos  grupos  considerados  por  alguna  razón  diferentes. 

Una  situación  de  este  tipo  es  la  siguiente:  “Se  desea  probar  si  la  proporción  de 
animales  enfermos  en  dos  reglones,  consideradas  geográficamente  distintas,  son 
estadísticamente  diferentes”. 


Para  resolver  este  problema  se  tomaron  al  azar  400  animales  de  una  de  las  zonas  en 
estudio  y se  encontró  que  190  de  ellos  estaban  enfermos,  en  tanto  que  de  la  otra  zona  se 
tomaron  al  azar  800  animales  de  los  cuales  300  estaban  enfermos.  Las  proporciones 
muéstrales  para  cada  zona  son: 


, 190  _ Anc  , 300 

Pi=^  = 0-475  y p2  = 


400 


800 


0.375  . 


Ahora  se  van  a plantear  las  hipótesis  de  interés 


H0:pi-p2=0  Hi:pi-p2*0 

En  términos  del  problema: 

H0:  La  proporción  de  animales  enfermos  en  las  dos  zonas  en  estudio  es  la  misma. 

Hi!  La  proporción  de  animales  enfermos  en  las  dos  zonas  en  estudio  es  diferente. 

Si  Xj  ~ B(ni,p),  X2  ~ B(n2,p)  con  ni  y ni  grandes  (mayores  a 30),  por  la  relación 
entre  las  distribuciones  Normal  y Binomial,  la  variable  aleatoria  p¡  — p2  tiene  distribución 
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normal  con  E(pj -p2)  = p¡ -p2  y Var^j -p2)  = ^- — Pii+Plíi — Hl 

n,  n2 

estas  afirmaciones  utilizar  las  propiedades  de  Esperanza  y Varianza.) 


. (Para  verificar 


Luego  el  estadístico  de  contraste  resulta 


Pi  Pi 

MzM  i 

ni  n2 


Si  vale  Ho,  s ~ N(0,1) 


Si  no  vale  H0,  s ~ N(c,l) 


Conpjy  p2  estimadores  de  pi  y p2 . 


Si  se  toma  un  nivel  de  significación  del  0.05  el  valor  crítico  es  a=1.96,  luego  la  zona  de 
rechazo  que  resulta  es  Z=(-oo,-1.96]u[1.96,+oo).  En  este  caso  el  sc=3.31,  por  lo  que  se 
rechaza  la  hipótesis  nula,  con  probabilidad  de  cometer  error  de  tipo  I. 


Conclusión:  Las  proporciones  de  animales  enfermos  en  las  dos  zonas  en  estudio  son 
diferentes. 


La  hipótesis  alternativa  para  otras  situaciones  también  podría  plantearse  como 

Hi:pi-p2>0  ó Hi:pi-p2<0 

Para  cada  una  de  las  pruebas  presentadas  en  este  capítulo  se  pueden  construir 
intervalos  de  confianza 


7.7  Relación  entre  Intervalo  de  Confianza  y Prueba  de  Hipótesis. 


Ahora  será  presentada  una  forma  alternativa  de  tomar  una  decisión  en  una  prueba  de 
hipótesis  bilateral. 

Para  ello  suponga  que  se  plantean  las  siguientes  hipótesis  acerca  de  la  media  de  una 
población  normal. 


H0:  |u,  = |u,o  Hi:  propio 

Para  tomar  una  decisión  acerca  de  éstas  hipótesis  se  pueden  seguir  dos  caminos,  tal 
como  se  indica  a continuación: 


a)  Realizar  la  prueba  de  hipótesis  construyendo,  para  un  valor  de  a especificado,  la  zona  de 
rechazo  Z=(-oo,-a]u[a,+co),  de  donde  la  zona  de  no  rechazo  es  (-a, a). 


b)  Construir  un  intervalo  de  confianza  para  jlx  de  nivel  (1-a),  el  cual  según  lo  presentado  en  el 

r \ 

— aa  — aa 

Capítulo  6 tiene  la  forma  X — ^=,X  + — j=  . 

V Vn  vnj 
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Si  |Uo  pertenece  al  intervalo  de  confianza,  significa  que  X =<)li0<Xh — =.  A 

Vn  Vn 

partir  de  esta  expresión  y siguiendo  los  pasos  algebraicos  inversos  a los  realizados  para 
construir  el  intervalo  de  confianza  se  obtiene  que 

X — Ll 

- a < < a , o equivalentemente  -a  < s < a 

a 

/ Vn 

(donde  s es  el  estadístico  de  contraste  de  la  prueba).  La  última  desigualdad  indica  que  el 
estadístico  pertenece  a la  zona  de  no  rechazo  de  la  prueba,  por  lo  que  no  se  rechaza  Ho. 

Esto  dice  que  a un  valor  de  fio  que  pertenece  al  intervalo  de  confianza  de  nivel  (1-a) 
le  corresponde  un  valor  del  estadístico  que  lleva  a no  rechazar  la  hipótesis  nula  en  la  prueba 
bilateral  de  nivel  a.  Por  otro  lado  si  jilo  no  pertenece  al  intervalo  de  confianza,  el  estadístico  de 
contraste  caerá  en  la  zona  de  rechazo. 

En  conclusión  para  poder  utilizar  la  relación  entre  una  prueba  de  hipótesis  y un 
intervalo  de  confianza  se  deben  verificar  las  siguientes  condiciones: 

• La  prueba  debe  ser  bilateral,  esto  es  Hi:  jii  A juo 

• El  nivel  de  confianza  del  intervalo  debe  ser  el  complemento  del  nivel  de  significación  de  la 

prueba. 

Resultados  análogos  son  válidos  para  todos  las  pruebas  presentadas  y los  intervalos 
de  confianza  correspondientes. 


7.8  Comentarios  finales 

Para  finalizar  es  conveniente  realizar  una  reflexión  a cerca  de  las  suposiciones  sobre 
las  cuales  se  han  construido  los  intervalos  de  confianza  y las  diferentes  pruebas  de  hipótesis. 
En  este  punto  es  claro  que  los  procedimientos  estadísticos  de  inferencia  proporcionan  un 
camino  objetivo  y veraz  para  conocer  características  poblacionales  en  base  a la  información 
dada  por  muestras  aleatorias.  Estos  procedimientos  en  general  son  válidos  si  la  variable  en 
estudio  tiene  distribución  Normal  (o  aproximadamente  Normal).  Los  enfoques  fortuitos  y 
casuales  para  la  aplicación  de  los  métodos  estadísticos,  sin  una  comprensión  de  sus 
suposiciones  y de  las  posibles  consecuencias  si  éstas  no  se  satisfacen,  muchas  veces  llevan  a 
una  mala  interpretación  y a conclusiones  erróneas. 

Como  ya  se  ha  visto  la  distribución  t de  Student  juega  un  papel  muy  importante  para 
formular  inferencias  con  respecto  a las  medias,  en  forma  especial  en  muestras  de  tamaño 
pequeño.  La  distribución  t de  Student  se  basa  en  la  suposición  de  que  el  muestreo  se  realiza 
sobre  una  distribución  normal,  pero  si  esto  no  fuera  así,  el  uso  de  esta  distribución  es  incorrecto 
(la  región  crítica  determinada  para  un  a dado,  resulta  de  probabilidad  diferente  que  el  valor 
especificado). 

Otro  punto  importante  es  que  la  inferencia  se  basa  en  el  hecho  que  se  utilizan  muestras 
aleatorias,  es  decir  observaciones  provenientes  de  variables  aleatorias  independientes 
idénticamente  distribuidas.  Si  esta  suposición  no  se  verifica,  es  probable  que,  cualquier 
inferencia  estadística  que  se  realice  sea  errónea  sin  importar  el  tamaño  de  la  muestra. 
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Ejercicios  de  Aplicación 

1. 

Se  sospecha  que  una  máquina  embotelladora  de  leche  no  funciona  adecuadamente.  El 
volumen  promedio  de  leche  de  las  botellas  debe  ser  de  970  cm3.  Se  supone  que  el 
desvío  estándar  de  la  variable  “volumen”  asume  un  valor  de  20  cm3. 

a)  ¿Cuál  es  el  objetivo  del  estudio?.  En  el  marco  de  la  teoría  de  las  pruebas  de  hipótesis, 
¿cómo  plantearía  este  objetivo?. 

b)  Para  las  hipótesis  planteadas  en  el  inciso  anterior,  ¿qué  estadístico  de  contraste  se 
debe  usar?. 

c)  Hallar  la  zona  de  rechazo  para  un  nivel  de  significación  de  0.05. 

d)  Para  poder  tomar  una  decisión  respecto  a las  hipótesis  planteadas  se  tomaron  al  azar  9 
botellas,  encontrándose  una  media  de  977  cm3.  ¿Hay  evidencia  estadística  para 
concluir  que  la  máquina  funciona  mal?. 

e)  ¿Cuál  sería  la  conclusión  si  se  hubiesen  tomado  49  botellas  obteniendo  también  un 
volumen  medio  de  977  cm3? 

2. 

Se  sabe  que  ciertas  ratas  con  una  alimentación  habitual  tiene  una  ganancia  de  peso 
medio  de  65  gr.  durante  los  tres  primeros  meses  de  vida.  Para  probar  el  efecto  de  una 
nueva  dieta,  se  alimentaron  30  ratas  desde  el  nacimiento  hasta  la  edad  de  tres  meses, 
encontrándose  un  aumento  medio  de  peso  de  70.75  gr.  y una  varianza  de  10  gr.2.  ¿ 
Hay  evidencias  estadísticamente  significativas  para  sostener,  al  nivel  del  1%,  que  la 
nueva  dieta  aumenta  la  ganancia  de  peso  promedio?. 

3. 

Un  establecimiento  dedicado  a la  elaboración  de  alimentos  balanceados  afirma  que  su 
producto  en  aves  de  una  cierta  raza  y de  un  mes  de  vida  produce  un  aumento  medio 
de  peso  mayor  a 100  gr.  por  semana. 

a)  ¿Cuáles  son  las  hipótesis  a contrastar?.  Estadísticamente  e interpretarlas  en  términos 
del  problema. 

b)  Para  tomar  una  decisión  sobre  las  hipótesis  planteadas  se  eligieron  al  azar  16  aves  de 
esa  raza  y se  les  suministró  el  alimento  balanceado  durante  una  semana,  obteniéndose 
con  estos  datos  un  valor  de  Sc=2.13.  Realizar  el  análisis  correspondiente  y establecer 
conclusiones  usando  el  valor  p. 

4. 

Para  cada  una  de  las  siguientes  situaciones  plantear  las  hipótesis  a contrastar  y,  de 
acuerdo  al  valor  p obtenido  en  base  a una  muestra  de  la  población  en  estudio, 
responder  a las  preguntas  que  se  formulan: 

a)  Investigaciones  anteriores  han  determinado  que  la  duración  media  de  sobrevida  de  los 
pacientes  afectados  por  cierta  enfermedad  es  de  3.4  meses.  Un  investigador  afirma 
que  una  nueva  droga  prolonga  la  vida  de  estos  pacientes.  Para  p=0.006,  ¿qué  se 
puede  afirmar  sobre  el  efecto  de  la  nueva  droga?. 

b)  Un  inspector  del  Instituto  Nacional  de  Tecnología  Agropecuaria  sospecha  que  el 
contenido  medio  de  semillas  de  un  cierto  producto  agrícola  es  inferior  al  indicado  en  la 
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etiqueta  (que  es  de  45  gr.).  Si  el  valor  p=0.075,  ¿sancionará  el  inspector  al 
establecimiento  que  fabrica  y envasa  dicho  producto?. 

c)  En  una  investigación  se  midió  el  tiempo  de  reacción  en  segundos  a un  estímulo  a un 
grupo  de  animales  de  cierta  raza.  Se  afirma  que  el  tiempo  medio  de  reacción  es  inferior 
a los  50  segundos.  Para  un  valor  p=0.32,  ¿a  qué  conclusión  se  llega  respecto  del 
tiempo  de  reacción  promedio? 

5. 

Un  veterinario  desea  estudiar  el  efecto  de  un  antiparasltario  en  cerdas  después  de  la 
parición.  Para  ello  selecciona  25  cerdas  afectadas,  las  trata  con  dicho  medicamento  y 
les  mide  el  tiempo  de  recuperación  en  días  encontrándose  un  tiempo  de  recuperación 
promedio  de  2.33  días  y un  desvío  estándar  de  1.2  días.  Dicho  profesional  sostiene 
que  si  el  tiempo  medio  de  recuperación  es  inferior  a los  3 días  es  posible  considerar 
que  el  medicamento  produce  el  efecto  esperado. 

¿Produce  el  antiparasltario  el  efecto  esperado  con  una  probabilidad  máxima  de  error  de 
tipo  uno  de  0.1  ?. 

6. 

a)  Se  quieren  contrastar  las  hipótesis  H0:  p=p0  versus  Hp  p^p0  , donde  p representa  la 
media  de  una  variable,  X,  con  distribución  normal.  Se  obtiene  una  muestra  de  n valores 
de  X,  con  una  media  de  299.  En  la  figura  que  se  presenta  a continuación  se  muestran 

los  valores  de  p para  diferentes  valores  de  p0,  manteniendo  siempre  fijo  X . Discutir  el 
comportamiento  del  valor  p como  función  de  p0. 


b)  Se  extraen  varias  muestras  de  una  población,  suponga  que  la  media  muestral  es  299 
en  cada  una  de  ellas.  En  la  figura  de  abajo  se  muestran  los  diferentes  valores  de  p 
para  contrastar  las  hipótesis  H0:  p=305  versus  Hp  prf05: 
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¿Cuál  es  el  efecto  de  la  varianza  muestral  sobre  el  valor  p?. 


Lotes  de  9 abejas  fueron  alimentados  en  comederos  con  jarabes  de,  concentración 
C1=20%  y C2  =65%  a una  milla  del  panal.  Al  llegar  al  panal  se  les  separa  el  saco  de 
miel  determinándose  la  concentración  de  líquido.  En  cada  caso  se  midió  la  disminución 
de  dicha  concentración  en  relación  con  la  del  comedero,  registrándose  para  la 
concentración  Ci  una  media  de  0.49%  y para  la  C2una  media  de  1.9%. 

¿Se  puede  sostener  que  fue  mayor  la  disminución  en  la  concentración  C2 , suponiendo 
que  los  desvíos  estándares  poblaclonales  son  1.09  % y 1.3  % para  cada  concentración 
respectivamente,  para  una  máxima  probabilidad  de  error  de  tipo  I del  0.10  ? 


En  un  establecimiento  avícola  se  desea  comparar  los  efectos  de  dos  dietas  sobre  el 
peso  de  pollitos  de  la  misma  raza  y edad.  Suponer  que  la  variable  peso  tiene 
distribución  Normal. 

a)  ¿Cuál  es  la  variable  en  estudio  y a qué  tipo  corresponde? 

b)  ¿Cuántas  poblaciones  estadísticas  se  generan  y qué  distribución  tiene  la  variable  en 
cada  una  de  ellas? 

c)  ¿Cuáles  son  las  hipótesis  a contrastar?. 

d)  Para  tomar  una  decisión  sobre  las  hipótesis  planteadas  se  tomaron  18  pollitos  al 
azar,  suministrándosele  cada  dieta  a 9 pollitos  y luego  de  cierto  lapso  de  tiempo  se 
determinó  su  peso  (en  gr.),  arrojando  los  siguientes  valores: 


A 

10 

10 

13 

12 

16 

9 

15 

12 

13 

B 

15 

16 

11 

16 

17 

10 

14 

12 

15 

Usar  los  valores  de  p que  se  muestran  en  la  siguiente  tabla  para  responder 


KEBTm 

Homogeneidad  de  Varlanzas 

0.8941 

Igualdad  de  Medias  (suponiendo  varlanzas  ¡guales) 

0.1345 

Igualdad  de  Medias  (suponiendo  varlanzas  distintas) 

0.1351 

e)  ¿Hay  evidencia  para  sostener  que  las  varlanzas  para  ambas  poblaciones  son  distintas? 

f)  ¿Existe  diferencia  entre  los  pesos  medios  para  ambas  poblaciones  ? 


Con  el  objetivo  de  comparar  el  contenido  total  de  nitrógeno  (en  gramos  por  100  cm3)  en 
plasma  de  ratas  albinas  normales  en  distintos  momentos  de  vida,  se  seleccionaron  6 
ratas  de  37  días  y 6 de  1 80  días  y se  determinó  el  contenido  de  nitrógeno  obteniéndose 
los  siguientes  valores: 


37  días 

0.98 

0.83 

0.99 

0.86 

0.90 

0.91 

180  días 

1.20 

1.18 

1.33 

1.21 

1.2 

1.07 

Utilizando  los  resultados  de  la  tabla  dada  a continuación,  ¿hay  evidencia 
estadísticamente  significativa  para  afirmar  que  los  contenidos  medios  totales  de 
nitrógeno  a los  37  días  y a los  180  días  son  diferentes?. 
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■IMi liJ 

Homogeneidad  de  Varianzas 

0.5786 

Igualdad  de  Medias  (suponiendo  varianzas  iguales) 

0.0001 

Igualdad  de  Medias  (suponiendo  varianzas  distintas) 

0.0001 

10. 

En  un  experimento  se  desea  determinar  si  el  contenido  de  hemoglobina  en  la  sangre 
de  perros  cambia  al  aplicar  un  tratamiento  con  niacina.  Para  ello  se  tomaron  8 perros,  y 
se  midió  el  contenido  de  hemoglobina  antes  y después  del  tratamiento,  obteniéndose 
las  siguientes  mediciones: 


Antes  12.6  12.6  13.7  11.1  11.3  12.2  10  11 


Después  10.4  11.5  13.6  12.0  19.3  8.8  9.4  10.7 


¿Modifica  el  tratamiento  el  contenido  medio  de  hemoglobina? 

11. 

Dos  raciones  alimenticias  van  a compararse  con  respecto  a su  efecto  en  el  incremento 
de  peso  en  cerdos.  Para  ello  se  seleccionaron  pares  de  cerdos  de  la  misma  camada, 
suministrándole  a cada  animal  del  par  una  ración  diferente.  Los  incrementos  de  peso 
se  muestran  a continuación. 


1 

0.454 

0.908 

1.816 

2.27 

3.362 

2 

0.816 

1.362 

4.086 

4.54 

4.086 

¿ Se  puede  afirmar  (en  sentido  estadístico)  que  la  ración  2 es  más  efectiva  que  la 
ración  1? 
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Objetivo: 

♦ Conocer  la  técnica  que  permite  comparar  las  medias  de  dos  o más  poblaciones  y sobre  la 
cual  se  basa  el  Diseño  de  Experimentos. 

♦ Comprender  la  utilidad  de  la  técnica  cuando  se  desean  comparar  más  de  dos  medias. 


8.1  Introducción 

En  el  Capítulo  7 se  presentó  la  prueba  para  comparar  las  medias  de  dos  poblaciones 
normales  (diferencias  de  medias).  En  muchas  situaciones  es  necesario  comparar  más  de  dos 
medias.  En  estos  casos  no  es  conveniente  efectuar  todas  las  comparaciones  posibles  de  las 
medias  tomadas  de  dos  en  dos,  ya  que  al  realizarlo  de  esta  manera  el  nivel  de  significación 
verdadero  no  es  el  prefijado  para  la  prueba,  lo  que  puede  llevar  a conclusiones  erróneas.  Lo 
adecuado  es  estudiar  simultáneamente  las  diferencias  entre  las  medias  de  todas  las 
poblaciones.  Problemas  como  éstos  se  pueden  resolver  usando  una  Importante  técnica 
estadística  conocida  como  Análisis  de  la  Varianza  (ANOVA)1,  método  que  fue  desarrollado  por 
R.A.  Fisher. 

Algunas  situaciones  en  las  que  se  desea  comparar  más  de  dos  medias  son: 

• Un  veterinario  desea  comparar  el  efecto  de  tres  dietas  de  engorde  en  pollos  parhileras. 

• Un  ingeniero  agrónomo  desea  comparar  el  efecto  de  dos  fertilizantes  y un  control,  para  una 
cierta  variedad  de  trigo. 

• Un  médico  desea  comparar  el  efecto  de  cuatro  drogas  para  el  dolor  de  cabeza. 

SI  bien  el  Análisis  de  la  Varianza  se  puede  considerar  como  una  generalización  de  la 
prueba  de  diferencias  de  medias,  el  mecanismo  en  sí  es  muy  distinto,  pues  la  técnica  de 
ANOVA  está  basada  en  la  comparación  de  varlanzas  y no  de  medias. 

Al  estudiar  la  variación  de  un  conjunto  de  datos  cualesquiera,  utilizando  como  medida 
de  dispersión  la  varianza,  no  se  han  tenido  en  cuenta  las  causas  de  dicha  variación.  En 
muchos  casos  la  variabilidad  total  existente  es  el  resultado  de  más  de  una  causa.  La  técnica  de 
Análisis  de  la  Varianza  consiste  en  descomponer  la  variabilidad  total  en  una  variación  atribulóle 
a causas  conocidas  (efectos  producidos  por  distintas  dietas,  fertilizantes  o drogas)  comúnmente 
denominadas  tratamientos  y en  otra  debida  a causas  desconocidas  que  no  pueden  ser 
controladas  por  el  experimentador  y son  atribulóles  al  azar.  Esta  última  es  considerada  como  la 
variación  intrínseca  a la  unidad  experimental. 


1 ANOVA:  sigla  en  inglés  para  Analysis  of  Variance 
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8.2  Análisis  de  la  Varianza 

A continuación  se  presenta  una  aplicación  de  esta  técnica. 

Ejemplo  1:  Se  desea  determinar  el  efecto  del  estrés  en  ratas  albinas.  Para  ello  se  midieron 
diferentes  variables,  entre  ellas  la  ingesta  de  agua  (en  mi.)  bajo  tres  tratamientos  diferentes: 
Comida  ad-libitum  (Tratamiento  1),  Comida  restringida  (Tratamiento  2)  y Comida  ad-libitum  con 
estrés  (Tratamiento  3).  El  objetivo  de  esta  experiencia  es  determinar  si  la  ingesta  promedio  de 
agua  es  diferente  en  ratas  albinas  sometidas  a estos  tres  tratamientos 


8.2.1  Modelo  lineal 

Cuando  se  está  en  una  situación  experimental  como  la  del  Ejemplo  1,  la  respuesta 
puede  ser  descripta  con  el  modelo  de  posición 

X¡j  = (i¡  + Sij  i=l,2,...,t;  j=l,2,...,ni 

donde  : 

X¡j:  ingesta  de  agua  de  la  j-ésima  rata  sometida  al  i-ésimo  tratamiento; 
jli¡:  ingesta  media  de  agua  con  el  tratamiento  i -ésimo; 

Sij:  componente  del  error  aleatorio.  Los  s¡j  son  variables  aleatorias  independientes  distribuidas 
normalmente,  con  media  cero  y varianza  común  a2; 
t:  número  de  tratamientos; 

n¡ : cantidad  de  unidades  experimentales  asignadas  al  tratamiento  i. 

Equivalentemente  se  puede  utilizar  el  modelo  de  efectos 

X¡j  = p + t¡  + Sij,  i=l,2,...,t , j=l,2,...,n¡ 


donde 

jii:  la  ingesta  media  de  agua. 

t 

t¡:  efecto  no  aleatorio  del  i-ésimo  tratamiento.  Con  la  restricción  Zt¡  = 0. 

i=l 

Estos  dos  modelos  son  equivalentes  porque  = |u  + ti. 

Las  hipótesis  pueden  escribirse  usando  el  modelo  de  posición  como 
H0:  M-i  = ju.2  = ...  = jLit  Hi:  al  menos  un  diferente,  i=l,2,...,t 

y usando  el  modelo  de  efectos  como 

H0:  Ti  = Ti  = ...  =Tt=  0 Hi:  al  menos  un  x¡  diferente,  i=l,2,...,t 


8.2.2  Prueba  de  hipótesis 

Como  el  objetivo  de  esta  experiencia  es  determinar  si  la  ingesta  promedio  de  agua  es 
diferente  en  ratas  albinas  sometidas  a estos  tres  tratamientos.  Esto  puede  ser  planteado  de  la 
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siguiente  manera: 

H0:  Hi  = (U-2  = M-3  Hi:  al  menos  un  |Ui  diferente,  i=l  ,2,3 

que  se  puede  expresar: 

Ho!  La  ingesta  promedio  de  agua  es  la  misma  bajo  los  tres  tratamientos. 

Hi!  La  ingesta  promedio  de  agua  es  diferente  para  al  menos  uno  de  los  tratamientos. 

Algunos  elementos  Importantes  para  realizar  al  análisis  estadístico  son: 

Experimento  Aleatorio:  Seleccionar  al  azar  24  ratas,  dividirlas  (aleatoriamente)  en  tres  grupos 
de  8 ratas  cada  uno,  para  luego  asignar  un  tratamiento  aleatoriamente  a cada  una  de  los 
grupos. 

Unidad  Experimental:  Una  rata  albina  de  peso  inicial  220  gr.  de  un  determinado  sexo  y edad. 

Población  de  Unidades:  Todas  las  ratas  albinas  de  peso  inicial  220  gr.  de  un  determinado  sexo 
y edad. 

Muestras  de  unidades:  24  ratas  albinas  seleccionadas  aleatoriamente  para  el  estudio. 

Variable  en  estudio:  Ingesta  de  agua 

Población  estadística:  Se  generan  tres  poblaciones  estadísticas: 

Población  estadística  1:  Todos  los  valores  de  ingesta  de  agua  correspondientes  a cada  una  de 
las  ratas  que  reciben  el  Tratamiento  1. 

Población  estadística  2:  Todos  los  valores  de  ingesta  de  agua  correspondientes  a cada  una  de 
las  ratas  que  reciben  el  Tratamiento  2. 

Población  estadística  3:  Todos  los  valores  de  ingesta  de  agua  correspondientes  a cada  una  de 
las  ratas  que  reciben  el  Tratamiento  3. 

Gráficamente: 


P.E.  1 


Muestra  Estadística:  Análogamente  se  tienen  tres  muestras  estadísticas,  cuyos  valores  se 
indican  en  la  Tabla  1. 
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Tabla  1:  Ingesta  de  agua  (en  mi.)  de  ratas  albinas  sometidas  a tres  tratamientos 


Tratamiento  1 

Tratamiento  2 

Tratamiento  3 

3.80 

3.10 

3.84 

0.61 

4.39 

4.05 

0.81 

3.04 

1.75 

0.81 

0.25 

2.95 

1.49 

0.38 

5.62 

7.56 

5.20 

5.99 

3.00 

3.60 

4.60 

0.70 

2.40 

3.20 

8 

ZX 

ij  1878 

22.45 

32.00 

j=i 

_Xíj 

2.35 

2.81 

4.00 

3 8 

Total  General  X = ¿¿X,  = 73.23  N = 24 

i=lj=l 


Es  Importante  destacar  que  este  tipo  de  análisis  permite  el  estudio  de  una  sola  variable, 
medida  en  situaciones  (tratamientos)  diferentes,  las  cuales  generan  sendas  poblaciones 
estadísticas  (una  por  cada  tratamiento). 

La  técnica  de  Análisis  de  la  Varlanza  consiste  en  descomponer  a la  variación  total  en 
una  variación  debida  al  efecto  de  los  tratamientos  (variación  entre  tratamientos)  y una  variación 
atribuida  al  azar  (variación  dentro  de  tratamiento).  A continuación  se  muestra  como  obtener 
esta  descomposición. 

La  variabilidad  de  un  conjunto  de  datos  respecto  a su  media  se  mide  mediante  la 
varianza,  la  cual  se  puede  pensar  como  el  cociente  entre  la  suma  de  cuadrados  de  los  desvíos, 
denominada  en  este  contexto  Suma  de  Cuadrados  Total  (SCj)  y la  cantidad  de  datos  menos  1. 
Simbólicamente  se  tiene 

3 8 ¡ =\2  3 8 

zzta-x)  sc  = ZZXy 

S2  = ' lj  1 = — , donde  X = ' ''  1 es  la  media  general,  X¡¡  es  la  j-éslma 

24-1  24-1  24  J 

observación  en  la  1-éslma  muestra  y 24  es  el  número  total  de  observaciones. 

Es  Importante  tener  en  cuenta  en  este  punto  que  S“  es  un  estimador  de  la  varlanza 

2 

poblaclonal  g“,  y sobre  la  base  de  este  hecho  se  construyen  estimadores  para  la  variación  total, 
la  variación  entre  tratamientos  (muestras)  y la  variación  dentro  de  tratamiento. 


El  valor  de  la  variación  total  Indica  cuánto  se  apartan  las  observaciones  X¡j  de  la  media 

general  X.  Para  esto,  se  considera  al  total  de  los  datos  (en  este  caso  24)  como  una  sola 
muestra,  entonces  esta  variación  incluye  tanto  la  producida  por  los  tratamientos  como  la  debida 
al  azar. 


Para  determinar  la  variación  entre  tratamientos  se  toma  un  representante  de  cada 
muestra  X¡  y se  considera  como  si  hubiera  una  muestra  de  tres  datos:  X1,X2,X3.  Luego, 
esta  variación  mide  cuánto  se  apartan,  en  promedio,  las  medias  de  cada  tratamiento  de  la 
media  general  de  los  24  datos. 

El  valor  de  la  variación  dentro  de  tratamiento  mide  la  variación  dentro  de  cada  muestra, 
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es  decir,  cuánto  se  aleja  cada  dato  X,,  de  X¡ . Esta  variación  recibe  el  nombre  de  error 
experimental . 


A continuación  se  presentan  las  expresiones  de  estas  tres  fuentes  de  variabilidad,  para 
el  caso  general  en  el  que  se  comparan  t tratamientos,  cada  uno  con  n¡  unidades 
experimentales  (con  i=1,  2,...,t). 

La  Variación  Total  es 


N-l  N-l 


la  suma  de  cuadrados  Total  se  puede  dividir  en  dos  sumandos,  es  decir 


t 


SCT=ZZX1J 

i=lj=l 


expresión  que  se  obtiene  operando  algebraicamente  luego  de  sumar  y restar  X¡ . Los 
sumandos  de  la  expresión  anterior  son  la  Suma  de  cuadrados  dentro  de  Tratamiento  (SCee)  y la 
Suma  de  cuadrados  entre  Tratamientos  (SCt ),  respectivamente.  Entonces: 

tu,/  _ \i  t n¡  / — =\2 

scee  = ii(x1]-xl)2  sct  = 1 1 Xi  - X 

i=lj=l  i=lj=l 

y 

SCT  = SCee  + SCt 


Para  comparar  la  variabilidad  entre  tratamientos  con  la  variabilidad  dentro  de 
tratamiento  se  divide  cada  una  de  estas  sumas  por  sus  respectivos  grados  de  libertad, 
obteniendo  los  llamados  Cuadrados  Medios 


Cuadrado  Medio  de  Error  = CMee  = 


scee 

N-t 


Cuadrado  Medio  entre  Tratamientos  = CMt 


SCt 

t^T 


~x)2 

1=1 j=i 

t-i 


2 

Los  cuadrados  medios  son  dos  estimadores  de  la  varianza  poblacional  a . Notar  que 
ambos  son  variables  aleatorias  independientes. 

Si  las  medias  de  las  poblaciones  en  realidad  son  diferentes,  se  espera  que  las  medias 
de  las  muestras  difieran  mucho  una  de  otra.  En  ese  caso  habría  mucha  dispersión  entre  ellas  y 
por  lo  tanto  el  CMt  sería  un  número  grande  con  respecto  al  CMee.  Por  otro  lado  si  las  medias 
poblacionales  son  ¡guales  (no  hay  efecto  de  tratamiento),  se  espera  que  las  medias  de  las 
muestras  sean  muy  parecidas  y la  variación  existente  entre  ellas  sólo  se  deba  al  azar;  por  lo 
tanto  el  CMt  estaría  muy  próximo  al  CMee.  De  acuerdo  a este  razonamiento  parece  natural  que 
el  cociente  entre  estos  cuadrados  medios  permita  determinar  si  hay  efecto  de  tratamiento,  o 
equivalentemente  si  las  medias  poblacionales  son  distintas. 

Por  lo  tanto  el  estadístico  adecuado  para  esta  prueba  está  dado  por  el  cociente  entre 
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los  cuadrados  medios  y tiene  una  distribución  F-Fisher2 


g = _CMt_ 
CMee 


Si  vale  Hq,  F ~ Ft_i;N-t  central 


Si  no  vale  Hq,  F ~ Ft.i,N-t  no  central 


En  realidad  el  cuadrado  medio  entre  tratamientos  (CMt)  estima  a la  varianza  poblaclonal 

2 

más  el  efecto  de  tratamientos  (a  +x¡)  y el  cuadrado  medio  dentro  de  tratamiento  (CMee)  es  un 

2 

estimador  de  la  varianza  poblaclonal  (g“)  lo  que  permite  reescribir  el  estadístico  de  contraste  de 
la  siguiente  manera 


a2  +n 


s = 


2>i 

i=l 

t 


G" 


SI  este  cociente  es: 


• cercano  a 1 no  hay  efecto  de  tratamiento,  lo  que  llevaría  a no  rechazar  Ho. 

• mayor  que  1 hay  efecto  de  tratamiento,  lo  que  llevaría  a rechazar  Ho. 

• menor  a 1,  se  debería  no  rechazar  Ho.  En  este  caso,  como  el  CMeees  un  número  grande 
habría  que  repetir  la  experiencia  pues  esto  podría  indicar  la  existencia  de  variaciones  no 
controladas. 

Hasta  este  punto  se  han  planteado  las  hipótesis  y el  estadístico.  A continuación  se 
determina  la  zona  de  rechazo  que,  por  las  consideraciones  realizadas  acerca  de  los  valores  que 
puede  tomar  el  estadístico,  tiene  la  forma  Z=[a,+oo).  En  general,  la  zona  de  rechazo  y el  nivel 
de  significación  tienen  la  siguiente  forma: 


Gráfico  1 : Nivel  de  significación  y zona  de  rechazo. 

Para  el  Ejemplo  considerado  t=3,  N=24,  n¡=8  . SI  se  decide  prefijar  un  nivel  de 


2 Esto  se  debe  a que  los  cuadrados  medios  son  variables  aleatorias  independientes  con  distribución  yj  y el  cociente 
de  dos  variables  con  distribuciones  % 2 dividido  sus  grados  de  libertad  tiene  distribución  F de  Fisher  (Capítulo  5). 
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significación  a=0.05,  el  valor  crítico  obtenido  de  la  Tabla  F del  Apéndice  es  F2j2i,o.05=3.47 
entonces  Z=[3.47,+oo). 

Antes  de  determinar  el  valor  numérico  del  estadístico  de  contraste  para  el  problema 
planteado  se  muestran  las  fórmulas  de  trabajo  de  las  sumas  de  cuadrados  total,  entre 
tratamientos  y dentro  de  tratamientos. 


Fórmulas  de  Trabajo 


t n¡  X t ni 

SCT=IIXjj-—  , donde  X = HXij 

i=ij=i  N i=ij=i 


t x2  X2  n 

SCt  =£— , donde  X¡  =¿Xi¡ 

¡=111,  N j=i 


SCee  = SCt  - SCt 


Para  el  problema  planteado 


SCT  =(3.8)2  +(0.6l)2  +---  + (3.2)2  _(73'23)  - 88.35 


sc  _ (18.78)2  |(22.45)2  [ (32)2  (73.23)2  _ ^ ^ 

1 8 8 8 24 

SCee  = 88.36-  11.64  = 76.71 

Esta  información  se  resume  en  una  tabla  llamada  “Tabla  de  Análisis  de  la  Varlanza”  (Tabla 
ANOVA). 


Tabla  2:  Tabla  ANOVA  para  los  datos  del  Ejemplo  1 


Fuentes  de  Variación 

gi ■ 

S.C. 

C.M. 

F 

Tratamiento 

2 

11.64 

5.82 

1.593 

Error  Experimental 

21 

76.71 

3.65 

Total 

23 

88.35 

Como  s £ Z no  hay  evidencias  para  rechazar  Ho  con  probabilidad  de  error  de  tipo  II. 

Conclusión:  no  hay  evidencias  suficientes  para  decir  que  la  ingesta  de  agua  promedio  de  todas 
las  ratas  fue  diferente  para  alguna  de  las  tres  comidas  (tratamientos). 

Es  usual  expresar  esta  conclusión  como  no  se  detectan  diferencias  significativas  entre 
las  tres  comidas  (que  significa  no  haber  rechazado  Ho). 


8.2.3  Pruebas  a Posteriori 


SI  la  decisión  hubiese  sido  rechazar  la  hipótesis  nula,  se  podría  concluir  que  la  ingesta 
de  agua  promedio  de  todas  las  ratas  fue  diferente  para  alguna  de  las  tres  comidas  o 
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equivalentemente  se  expresa  como  hay  diferencias  significativas  entre  las  tres  comidas  (que 
significa  haber  rechazado  Ho). 

En  esta  última  situación  interesa  determinar  cuál  o cuáles  son  los  tratamientos  que 
producen  la  diferencia.  Para  ello  se  puede  recurrir  a otras  pruebas  llamadas  Pruebas  a 
Posterior'!.  Éstas  permiten  realizar  las  comparaciones  entre  los  tratamientos  que  intervienen  en 
la  experiencia  para  detectar  entre  quienes  está  la  diferencia.  Reciben  la  denominación  de  “a 
posteriori”  porque  se  realizan  después  de  rechazar  la  hipótesis  de  que  las  medias  de  todos  los 
tratamientos  son  ¡guales. 

Las  más  usadas  son  las  pruebas  de  Tukey,  Dunnet,  Scheffé,  etc.  Ellas  pueden  ser 
consultadas  en  Steel,  R.G.D.  yTorrie,  J.H.  (1985). 

Para  el  problema  planteado,  en  caso  de  que  la  conclusión  hubiese  sido  que  alguna  de 
las  ingestas  medias  de  agua  es  diferente,  las  hipótesis  correspondientes  a la  prueba  de  Tukey 
son: 


H0:  jlxi  = jü-2 

Hi:  |4i  * |42 

H0:  pi  = (4,3 

Hi:  (4i  * (43 

H0:  |42  = (43 

Hí:  |42  * P3 

Otra  forma  de  detectar  cuáles  son  los  tratamientos  que  producen  efectos  diferentes  es 
usar  intervalos  de  confianza  para  las  diferencias  de  medias  (|4i  - JU2),  (f4i  - J113),  ((43  - (43). 


8.2.4  Supuestos  para  la  validez  del  modelo 

Para  que  las  conclusiones  obtenidas  del  análisis  sean  válidas  se  requiere  que  se 
cumplan  ciertos  supuestos,  que  se  pueden  resumir  de  la  siguiente  manera: 

1.  Las  muestras  deben  obtenerse  aleatoriamente  de  cada  una  de  las  t poblaciones  de  manera 
independiente. 

2.  La  variable  en  estudio  debe  tener  distribución  Normal,  X ~N((4í,Gí). 

3.  Las  varlanzas  de  las  t poblaciones  deben  ser  ¡guales,  gJ  = <j22  =...  = af  = a2 
(homogeneidad  de  varlanzas). 

La  validez  de  un  experimento  depende  del  muestreo  aleatorio  y/o  del  proceso  de 
aleatorlzaclón.  Para  evitar  tendencias  en  los  resultados,  es  esencial  que  se  considere  que  los 
datos  sean  obtenidos  de  manera  aleatoria  e independiente  de  las  poblaciones  en  estudio  o que 
las  unidades  experimentales  sean  asignadas  aleatoriamente  a los  t niveles  del  tratamiento  de 
interés.  La  falta  de  Normalidad  no  afecta  seriamente  las  conclusiones  salvo  cuando  la 
distribución  de  la  variable  es  muy  asimétrica.  La  falta  de  homogeneidad  de  varlanzas  afecta  el 
nivel  de  significación  y por  lo  tanto  las  conclusiones  del  análisis. 

Para  verificar  el  cumplimiento  de  estos  supuestos  se  pueden  utilizar  métodos  gráficos  y 
pruebas  de  hipótesis.  Éstos  se  realizan  con  un  nuevo  conjunto  de  datos  el  cual  es  obtenido 
definiendo  una  nueva  variable  denominada  residuo  cuya  expresión  es: 

e«  = Xij  - X„ 

donde  : 

X¡j:  es  el  valor  obtenido  experimentalmente. 

X¡¡:  es  el  valor  estimado  por  el  modelo  lineal. 
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Para  más  detalles  acerca  de  estos  procedimientos  se  puede  consultar  Mead,  R.  et.  al. 

(1993). 


Ejercicios  de  Aplicación: 

i. 

Con  el  objetivo  de  comparar  dos  dietas  de  engorde  con  distintos  agregados  de  levadura 
(0.6  % y 0.9%)  con  un  testigo  sin  levadura,  se  seleccionaron  90  pollos  parrilleros 
machos  de  20  días  de  vida  los  cuales  fueron  divididos  en  tres  grupos  de  30  y a cada 
grupo  se  le  asignaron  las  dietas.  Al  cabo  de  cierto  tiempo  se  midió  la  ganancia  de  peso 
para  cada  pollo,  obteniéndose  los  siguientes  valores  de  ganancia  media  para  cada 
grupo:  


a)  Especificar: 

i)  la  variable  en  estudio, 

¡i)  la  cantidad  de  poblaciones  estadísticas  en  estudio, 
i¡¡)  las  hipótesis  a contrastar. 

b)  A partir  de  la  siguiente  tabla  ANOVA  extraer  conclusiones: 


Fuente  de 
Variación 

Grados  de 
Libertad 

Suma  de 
Cuadrado 

Cuadrado 

Medio 

Valor  F 

Valor  p 

Tratamiento 

2 

407215.5556 

203607.7778 

17.17 

0.0001 

Error 

87 

1031892.5000 

11860.8333 

Total 

89 

1439108.0556 

c)  A partir  del  siguiente  gráfico  comentar  cuales  poblaciones  “posiblemente”  presentan 
diferentes  medias  (recordar  que  se  está  trabajando  con  muestras): 


Tratamientos 


Gráfico  de  Medias  para  la  variable  ganancia  de  peso 


d)  La  siguiente  tabla  contiene  el  valor  absoluto  de  las  diferencias  de  las  medias  para 
cada  par  de  tratamientos.  El  asterisco  Indica  diferencia  significativa  detectada  por  la 
prueba  a posteriori  de  Tukey  para  un  nivel  de  significación  del  5%.  Extraer 
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conclusiones  respecto  de  las  medias  poblaclonales  y cotejar  con  la  primera 
inspección  efectuada  en  el  inciso  anterior: 


Tratamiento 

Tratamiento 

Testigo 

Levadura  al  0.9% 

Levadura  al  0.6% 
Levadura  al  0.9% 

60.66 

163* 

102.34* 

Suponga  que  la  experiencia  descripta  en  el  ejercicio  anterior  se  hubiese  realizado  de  la 
siguiente  forma:  se  seleccionan  lo  90  pollos  parrilleros  y se  los  divide  en  15  corrales  de 
6 aves  cada  uno,  utilizándose  5 corrales  por  dieta.  En  cada  corral  se  mide  la  variable 
conversión  por  corral.  Se  muestra  a continuación  la  tabla  de  medias  correspondientes: 


Tratamiento 


Levadura  al  0.9% 


Levadura  al  0.6% 


Testigo 


Media 


2.2880 


2.4080 


2.5160 


a)  Especificar  la  unidad  experimental  y las  hipótesis  a contrastar. 

b)  Completar  la  tabla  de  análisis  de  la  varianza  y extraer  conclusiones. 


Tabla  ANOVA  para  la  variable  Conversión 


Fuente  de 
Variación 

Grados  de 
Libertad 

Suma  de 
Cuadrado 

Cuadrado 

Medio 

Valor  F 

Valor  p 

Tratamiento 

0.13008000 

Error 

0.02868000 

Total 

0.15876000 

c)  Concluir  a partir  de  la  tabla  para  el  análisis  a posteriori  de  Tukey,  respecto  de  las 
medias  poblaclonales. 


Tabla  correspondiente  al  análisis  a posteriori  de  Tukey  (g=0.05) 


Tratamiento 

Tratamiento 

Testigo 

Levadura  al  0.9% 

Levadura  al  0.6% 

Levadura  al  0.9% 

■H9 

0.12* 

En  un  estudio  se  desea  comparar  el  efecto  de  tres  métodos  distintos  de  congelación  de 
semen  porcino  para  la  variable  motilidad  espermátlca.  La  experiencia  se  realizó  de  la 
siguiente  manera:  cada  eyaculado  de  un  cerdo  fue  dividido  en  tres  partes  y cada  una  de 
ella  fue  sometida  a un  método  de  congelación:  Macropajuela,  Mlcropajuela  y Pastilla. 
Completar  la  tabla  anova  que  se  presenta  a continuación  y establecer  conclusiones 


Fuente  de 
Variación 

Grados  de 
Libertad 

Suma  de 
Cuadrado 

Cuadrado 

Medio 

Valor  F 

Valor  p 

Tratamiento 

10891.85 

Error 

17343.85 

Total 

119 

28235.70 

Tabla  correspondiente  al  análisis  a posteriori  de  Tukey  (g=0.05) 


Tratamiento 

m 

M 

Tratamiento 

P 

21.125* 

19.15* 

M 

1.975 
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Objetivos: 

♦ Distinguir  entre  un  análisis  de  Regresión  Lineal  y uno  de  Correlación  Lineal. 

♦ Interpretar  la  información  obtenida  en  cada  análisis. 


9.1  Introducción 

En  capítulos  anteriores  se  ha  trabajado  con  situaciones  que  involucran  la  medición  de 
una  única  variable  sobre  cada  unidad  experimental.  Sin  embargo,  existen  una  gran  variedad  de 
problemas  que  requieren  la  consideración  simultánea  de  dos  o más  variables  y el  objetivo  es 
estudiar  la  relación  que  existe  entre  ellas.  En  consecuencia,  es  necesario  estudiar  técnicas  para 
analizar  problemas  de  este  tipo. 

Estas  nuevas  situaciones  llevan  a introducir  los  conceptos  de  Correlación  y Regresión 
Lineal.  Las  aplicaciones  de  estas  técnicas  son  numerosas  y se  dan  en  casi  todas  las  ciencias 
incluyendo  ciencias  biológicas,  ingeniería,  física,  economía  y ciencias  sociales  entre  otras. 

En  este  texto  sólo  se  trata  el  caso  de  Correlación  Lineal  Simple  y Regresión  Lineal 
Simple  es  decir,  cuando  se  tienen  dos  variables  (denotadas  por  X e Y)  medidas  sobre  cada 
unidad  experimental  y la  relación  subyacente  entre  ambas  es  de  tipo  lineal. 

A continuación  se  muestran  algunas  situaciones  en  las  cuales  el  interés  es  estudiar  la 
relación  entre  las  variables  analizadas: 

• Un  médico  desea  saber  si  hay  relación  lineal  entre  la  presión  sanguínea  y el  nivel  de 
colesterol. 

• Un  veterinario  desea  saber  si  hay  relación  lineal  entre  el  peso  de  ciertos  animales  y su 
altura. 

• Un  agrónomo  desea  predecir  el  rendimiento  de  cierta  especie  en  base  al  contenido  de 
nitrógeno  del  suelo. 

• Un  biólogo  desea  predecir  el  peso  del  hígado  de  ciertos  animales  en  función  del  peso 
corporal. 

No  siempre  es  claro  que  tipo  de  análisis  estadístico  se  debe  hacer  en  situaciones  como 
las  planteadas  anteriormente  por  la  estrecha  relación  matemática  entre  los  dos  métodos  de 
análisis,  pudiéndose  pasar  fácilmente  de  uno  al  otro.  Este  texto  trata  de  realizar  una 
presentación  clara  que  permita  distinguir  estos  dos  conceptos. 


9.2  Correlación  Lineal  Simple 

Se  llama  Correlación  a la  interrelación  que  existe  entre  dos  variables  aleatorias 
cuantitativas  continuas,  medidas  sobre  cada  unidad  experimental  de  una  misma  población. 
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El  estudio  de  Correlación  Lineal  Simple  tiene  como  objetivo  determinar  si  dos  variables 
están  relacionadas  o no.  Por  ejemplo,  si  a ios  aumentos  de  presión  sanguínea  corresponden 
aumentos  en  el  nivel  de  colesterol:  en  este  caso,  se  dice  que  hay  asociación  lineal  entre  las 
variables  "presión  sanguínea"  y "nivel  de  colesterol". 

Con  la  correlación  puede  investigarse  si  dos  variables  X e Y son  independientes  o si 
covarían,  esto  es,  si  varían  conjuntamente.  Ninguna  de  estas  variables  está  restringida  por  el 
experimentador,  o sea  que,  sobre  cada  unidad  experimental  se  miden  las  dos  variables1 
(ambas  son  variables  aleatorias). 

En  el  Problema  1.5  se  plantea  la  siguiente  situación  ‘‘Un  grupo  de  investigadores 
sospecha  que  hay  relación  lineal  entre  el  peso  y el  volumen  sanguíneo  de  cabras  de  una  cierta 
raza”.  Los  datos,  ya  presentados  en  aquel  problema,  son: 

X:  Peso  (kg.) 34  28  19  41  21  20  21  39  37  23  17  48 

Y:  Volumen  (cm3)  2.3  2.1  1.1  2.8  1.5  1.6  1.4  2.4  2.5  1.5  1.1  3.5 

En  el  Gráfico  7 del  Capítulo  1 se  presentó  el  Diagrama  de  Dispersión;  de  acuerdo  al 
comportamiento  de  la  nube  de  puntos,  se  puede  pensar  que  hay  asociación  lineal  positiva  entre 
las  variables  (como  se  mencionara  en  aquel  capítulo).  Otras  formas  de  asociación  se 
presentaron  en  el  Gráfico  8. 

La  representación  gráfica  sirve  sólo  para  dar  una  idea  general  de  la  asociación 
existente  entre  las  variables,  pero  no  alcanza  para  dar  una  medida  cuantitativa  de  dicha 
asociación.  Una  de  estas  medidas  es  el  coeficiente  de  correlación  lineal  poblaclonal.  Un 
estimador  de  éste  fue  presentado  en  la  Sección  2.5  (Capítulo  2).  A continuación  se  describe  el 
parámetro  poblaclonal  correspondiente. 


9.2.1  Medida  de  la  Correlación  - Coeficiente  de  Correlación  Lineal 


Una  medida  del  grado  de  asociación  lineal  entre  dos  variables  es  la  covarlanza. 

Definición  1:  Sean  X e Y dos  variables  aleatorias  con  distribución  normal  con  E(X)=|Ux, 

2 x 2 

Var(X)=Gx  y E(Y)=|Uy,  Var(Y)=  Oy  ■ La  covarlanza  entre  las  variables  X e Y es 

Cov(X,Y)=E[(X-E(X)(Y-E(Y)]=gXy 

El  inconveniente  de  esta  medida  es  que  su  magnitud  depende  de  las  unidades 
empleadas  para  medir  las  variables.  Por  esta  razón  es  necesario  estandarizar  la  covarlanza 
para  disponer  de  una  buena  medida  del  ajuste.  Esto  se  obtiene  con  el  coeficiente  de  correlación 
lineal. 


Definición  2:  Sean  X e Y dos  variables  aleatorias  con  distribución  normal  con  E(X)=|Ux 

2 2 

Var(X)=ax  yE(Y)=|u,Y,  Var(Y)=  Oy.EI  coeficiente  de  correlación  lineal  es 


Cov(x,Y) 

e(x-e(x))2e(y-e(y))2 


aXY 

gxgy 


1 Notar  que  (X,  Y)  son  variables  aleatorias  bidimensionales. 
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Este  coeficiente  es  independiente  de  las  unidades  de  medida,  es  decir  es  una  cantidad 
absoluta,  sin  dimensión. 


9.2. 1.1  Características  del  Coeficiente  de  Correlación 


1.  Los  valores  posibles  del  coeficiente  están  en  el  intervalo  [-1,1]  o sea  que  - l<p<l. 

2.  Cuando  el  coeficiente  toma  valores  en  el  intervalo  (0,1],  indica  correlación  directa  o positiva. 

3.  Cuando  el  coeficiente  toma  valores  en  el  intervalo  [—1,0),  indica  correlación  indirecta  o 
negativa. 

4.  Cuando  el  coeficiente  toma  valor  cero  indica  ausencia  de  correlación. 


Cuanto  más  cerca  está  p de  1 o de  -1  mayor  es  el  grado  de  asociación  entre  las 
variables.  El  coeficiente  p es  un  parámetro  poblacional  y por  tanto  es  un  valor  constante  pero 
desconocido.  Su  estimador  r,  en  cambio,  es  una  variable  aleatoria  dado  que  depende  de  los 
valores  muéstrales.  Una  expresión  equivalente  a la  dada  en  el  Capítulo  2 es 


r = 


¿(x.-xXy.-y) 


Í(Xí-x)2£(y,-y)2 


Para  el  cálculo  se  puede  utilizar  la  siguiente  fórmula  de  trabajo: 


r = 


n 1 n n 

ZXiYI--ZXIZYi 
i=i  n i=i  i=i 


IXf-nX2 

V¡=i 


1/2  , 


ZYf-nY2 
V i=i 


y/2 

) 


El  coeficiente  de  correlación  lineal  se  denomina  “correlación  producto-momento  de  Pearson”. 
Para  el  problema 

n = 12  XX¡=348 

i=l 

12 

X Y,  =23.8 

i=l 


[(l  1276  - 12  . (29)2).  (53.24  - 12 . (l .983)2)}/2 

Este  valor  es  una  medida  descriptiva  para  esta  muestra  particular.  Como  se  puede 
observar  es  un  valor  cercano  a 1,  lo  que  indicaría  que  en  esta  muestra  hay  alta  correlación 
positiva.  Para  poder  decidir  lo  que  ocurre  en  la  población  se  debe  realizar  una  prueba  de 
hipótesis. 


12 


XXf  =11276  X = 29 


i=l 

12 


12 


XY¡  =53.24  Y = 1.983  XX^  =772.9 

i=l  i=l 


772.9-— 348.23.8 
12 


_ n oq 
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9.2.2  Prueba  de  Significación  para  el  Coeficiente  de  Correlación 

En  general  se  plantean  las  siguientes  hipótesis: 

1.  Hq:  p = 0 Hp  p A 0 


las  cuales  indican 


Ho:  No  hay  asociación  lineal  entre  las  variables  X e Y. 
Hp  Hay  asociación  lineal  entre  las  variables  X e Y. 

2.  El  estadístico  es 


s = 


n - 2 


SI  vale  Hq,  s ~ tn_2  central. 


Si  no  vale  Hq,  s ~ tn_2  no  central. 


De  acuerdo  a la  hipótesis  alternativa  la  zona  de  rechazo  tiene  la  forma 
Z=(-oo,-a]u[a,+oo)  y se  completa  la  prueba  de  la  manera  usual. 


SI  las  variables  X e Y tienen  distribución  Normal,  probar  que  éstas  son  independientes 

equivale  a probar  que  el  coeficiente  de  correlación  p es  Igual  a cero.  Como  esta  prueba  se 
realiza  bajo  el  supuesto  de  normalidad  se  está  probando  independencia  entre  las  variables. 

A continuación  se  realiza  la  prueba  de  hipótesis  para  el  caso  particular  del  problema 
planteado. 


1.  H0:  p = 0 Hp  p A 0 

las  cuales  indican 

Ho:  No  hay  asociación  lineal  entre  el  peso  y el  volumen  sanguíneo  de  las  cabras. 

Hp  Hay  asociación  lineal  entre  el  peso  y el  volumen  sanguíneo  de  las  cabras. 

2.  El  estadístico  es 

s = n - 2 

VI  — r 

3.  SI  se  fija  un  nivel  de  significación  a=0.05,  el  valor  crítico  es  a=tio,o.975=2.23  (ver  Tabla  D del 
Apéndice)  luego  la  zona  de  rechazo  es  Z=(-00,_2.23]u[2.23,+00)- 

4.  El  estadístico  de  contraste  calculado  es 


SI  vale  Hq,  s ~ tío  central. 


i no  vale  Hq,  s ~ tío  no  central 


s 


C 


0.98 

l-(0.98)2 


12-2  =15.57 
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En  el  siguiente  gráfico  se  indica  la  zona  de  rechazo  y el  nivel  de  significación. 


Gráfico  1:  Nivel  de  significación  y zona  de  rechazo 
para  el  Problema  1.5 

5.  Como  sc=15.57  pertenece  a la  zona  de  rechazo,  la  decisión  es  que  se  rechaza  la  hipótesis 
nula  con  probabilidad  de  cometer  error  de  tipo  I de  0.05. 

6.  Conclusión:  hay  asociación  lineal  entre  el  peso  y volumen  sanguíneo  de  las  cabras. 


9.3  Regresión  Lineal  Simple 

A veces,  cuando  se  posee  información  acerca  de  dos  variables  cuantitativas,  es  natural 
desear  expresar  una  relación  funcional  entre  ellas.  El  análisis  de  Regresión  es  una  técnica  para 
investigar  y modelar  la  relación  entre  variables.  En  este  contexto  se  estudia  la  relación  entre 
una  variable  aleatoria  o no  controlada  (Y)  y una  variable  no  aleatoria  o controlada  por  el 
investigador  (X).  El  objetivo  que  será  abordado  en  este  texto  es  el  de  realizar  predicciones,  es 
decir  estimar  el  valor  de  la  variable  Y para  un  valor  dado  de  la  variable  X.  Para  realizar  este 
análisis  se  supone  que  la  relación  entre  las  variables  es  lineal. 

Para  desarrollar  este  tema  se  plantea  el  siguiente 

Ejemplo  1:  A partir  de  cierto  estudio  se  sabe  que  la  relación  entre  la  presión  sanguínea  en 
animales  y la  dosis  de  cierta  droga  es  lineal.  Se  desea  predecir  la  presión  para  determinadas 
dosis  de  la  droga.  Para  ello  se  consideraron  animales  de  la  misma  especie,  peso  y edad  a los 
que  se  les  aplica  la  droga  en  diferentes  dosis  prefijadas  por  el  experimentador  y luego  se  les 
midió  la  presión.  Los  datos  se  muestran  a continuación: 


Tabla  2:  Dosis  de  droga  y presión  sanguínea  de  animales 


Dosis  de  droga  (pg)  2 

4 

6 

8 

10 

Presión  Sanguínea  (mm.  Hg)  40 

75 

100 

150 

180 

42 

82 

120 

130 

175 

50 

88 

110 

155 

181 

57 

En  primer  lugar  se  realiza  un  diagrama  de  dispersión. 
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Gráfico  2:  Diagrama  de  dispersión  de  presión  sanguínea  y 
dosis  de  droga 


El  diagrama  muestra  que  los  datos  están  (aproximadamente)  sobre  una  línea. 


9.3.1  Modelo  Lineal 

La  relación  lineal  entre  las  variables  X e Y puede  expresarse  usando  el  modelo  de 
regresión  lineal  simple  poblacional 


Y¡=  a+pXj+Si  (9.1) 

donde 

a:  ordenada  al  origen;  p:  pendiente;  s¡:  componente  del  error  aleatorio. 

Los  parámetros  del  modelo  son  a y P (constantes  desconocidas).  Como  no  todos  los 
puntos  caen  exactamente  sobre  la  recta,  se  incluye  en  el  modelo  el  término  correspondiente  al 
error  aleatorio  que  es  una  variable  aleatoria  con  distribución  normal  con  media  0 y varianza  g“. 
Por  lo  tanto  las  Y¡  son  variables  aleatorias  Independientes  con  distribución  normal  con 
esperanza  a+pX¡  y varianza  común  a".(Meyer,  P.  1992). 


9.3.2  Estimación  de  los  parámetros 

Como  el  modelo  (9.1)  es  poblacional,  el  primer  objetivo  es  estimar  los  parámetros.  Para 
ello  se  debe  realizar  un  experimento  y así  generar  los  datos  muéstrales,  en  base  a los  cuales  se 
obtienen  los  estimadores  de  a y p (denotados  por  a y b,  respectivamente).  Luego  la  recta 
estimada  es 


Y,  =a  + bX, , i=l,2,...,n 

Los  estimadores  a y b se  denominan  estimadores  de  mínimos  cuadrados,  dado  que 
ellos  se  obtienen  a través  del  Método  de  Mínimos  Cuadrados.  Éste  consiste  en  minimizar  las 

diferencias  entre  el  valor  observado  Y¡  y el  valor  estimado  Y¡,  denominadas  residuos 

(denotados  e¡).  Geométricamente  esto  se  puede  observar  en  el  Gráfico  3,  en  el  cual  se 
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muestran  los  valores  observados  (experimentales)  y los  valores  estimados,  que  están  sobre  la 
recta. 


Minimizando  la  siguiente  expresión 


i=l  i=l 


se  obtienen  las  fórmulas  de  los  estimadores  a y b,  las  cuales  son 

n 1 n n 

ZXjYi—  ZXjZYi 

b=id ru=i — i=l_  a = Y - bX 

n 2 — 2 

IXi-nX 

i=l 

Como  a y b son  estimadores  mínimos  cuadrados  la  recta  estimada  (Y¡  = a+bX¡)  pasa 
por  el  centro  de  la  nube  de  puntos,  y la  distancia  entre  los  valores  obtenidos  experlmentalmente 
(Y¡)  y aquellos  estimados  por  esta  recta  ( Y¡ ) es  mínima.  De  esta  manera  se  ha  construido  la 
recta  que  tiene  la  menor  distancia  con  todos  los  puntos. 

El  estimador  a (por  ser  la  ordenada  al  origen),  indica  el  punto  en  que  la  recta  corta  al 
eje  de  las  ordenadas,  en  tanto  que  b (por  ser  la  pendiente  de  la  recta)  indica  el  cambio 
producido  en  Y al  cambiar  en  una  unidad  la  X. 

Para  el  Ejemplo  1 se  tiene 

n=16  IX,  =92  IX,2  = 664  X = 5.75 

i=l  i=l 

I Y,  =1735  I Y,2  =224917  Y = 108.44 

i=l  i=l 


16 

IXjY¡  =12178 

i— 1 


a partir  de  los  cuales  los  valores  de  a y b son 
12178 — .92.1735 

b = = 16.31  a=108.44-5.75. 16.31=14.66 

664 -16.  (5. 75)2 
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luego  la  recta  estimada  que  resulta  es: 

Y,  =14.66  + 16.3 1X¡ 


En  este  caso  el  estimador  b=  16.31  nun.  Hg/|ug  indica  que  la  presión  aumenta  16.31 
mm.  Hg  al  aumentar  en  un  /ug  la  dosis  de  droga.  Mientras  que  a=14.66  mm.  Hg  indica  que 
cuando  el  animal  no  recibe  droga  (X=0)  la  presión  sanguínea  es  14.66  mm.  Hg. 

El  gráfico  de  ajuste  del  modelo  consiste  en  bosquejar  simultáneamente  el  diagrama  de 
dispersión  de  los  datos  y la  recta  de  regresión  estimada.  Si  los  puntos  del  diagrama  están 
cercanos  a la  recta  hay  indicios  de  que  el  modelo  es  adecuado.  El  análisis  no  es  taxativo  ya  que 
es  necesario  completar  con  otras  técnicas  de  diagnóstico,  que  no  serán  presentadas  en  este 
texto  (Montgomery,  D.  y Peck,  E.  1982). 

Para  el  Ejemplo  1,  el  Gráfico  4 es  un  indicio  de  que  el  modelo  puede  ser  el  adecuado. 


Gráfico  4:  Gráfico  de  ajuste  del  modelo  para 
los  datos  del  Ejemplo  1. 


9.3.3  Distribución  de  los  Estimadores  a y b 


Si  Yi,Y2,...,Yn  son  variables  aleatorias  independientes  con  distribución  normal  con 

2 

media  a+pX¡  y varianza  g“  se  puede  demostrar  que  los  estimadores  a y b (que  son  variables 
aleatorias)  tienen  asociada  las  siguientes  distribuciones  de  probabilidades. 


donde  Sxx 


b ~ N 


P, 


G 


js 


XX  ) 


f 

1 — 2 ^ 

i x- 

a ,g,| 

+ 

V 

n Sxx 

X(x¡  -X)  (Montgomery,  D.  y Peck,  E.1982) 

i=l 


La  recta  estimada  es  obtenida  a partir  de  la  información  de  los  datos  experimentales, 
luego  expresa  lo  que  ocurre  en  la  muestra,  es  decir  la  recta  estimada  es  meramente 
descriptiva.  En  caso  que  se  desee  obtener  conclusiones  sobre  la  población  para  predecir 
valores  de  la  variable  Y para  determinados  valores  de  la  variable  X se  deben  realizar  pruebas 
de  hipótesis. 
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9.3.4  Pruebas  de  Significación  de  los  Parámetros 


9. 3.4.1  Prueba  de  Significación  de  la  Regresión 

Se  realiza  en  primer  lugar  una  prueba  para  el  parámetro  p,  la  cual  es  llamada  Prueba 
de  Significación  de  la  Regresión. 

Las  hipótesis  a probar  son: 

H0:  P = 0 H,:p*0 

que  Indican 

Ho:  La  variable  X no  explica  linealmente  a la  variable  Y. 

Hi:  La  variable  X explica  linealmente  a la  variable  Y. 

Lo  planteado  en  la  hipótesis  nula  indica  que  la  recta  poblaclonal  tiene  pendiente  cero  (o 
sea  es  una  recta  horizontal)  lo  cual  se  Interpreta  como  que  cualquiera  sea  la  variación  en  X,  Y 
permanece  constante.  La  estimación  está  dada  por  a = Y . 

Para  contrastar  estas  hipótesis  se  define  el  siguiente  estadístico 


s = 


b vxf  nX2 

"¡  i=l 


I vale  Hq,  s ~ tn_2  central. 


i no  vale  Ho,  s ~ tn_2  no  central 


donde  se 


X Y,2  - aX Y,  - bXX,Y, 


i=l i=l i=L 

n - 2 


1 

2 


La  zona  de  rechazo  es  Z=(-oo,-a]u[a,+  oo)  donde  a=tn_2,  i-a/2  (de  la  Tabla  D del  Apéndice). 

SI  se  rechaza  Ho  la  variable  X explica  linealmente  a la  variable  Y. 

En  caso  de  no  rechazar  Ho  no  significa  necesariamente  que  las  variables  X e Y no 
están  relacionadas  linealmente.  El  hecho  de  no  poder  mostrar  estadísticamente  que  la 
pendiente  es  distinta  de  cero,  puede  deberse  a una  gran  variabilidad  en  los  datos  producida 
por  el  proceso  de  medición  de  los  mismos  o a porque  el  rango  de  los  valores  de  la  variable  X 
no  es  el  apropiado.  Para  concluir  que  p=0  se  requiere  una  gran  variedad  de  evidencia  no 
estadística  y conocimiento  del  problema. 
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En  muchas  situaciones  prácticas  la  variable  aleatoria  Y es  explicada  linealmente  por  más  de 
una  variable  controlada.  Cuando  esto  sucede,  se  dice  que  el  modelo  adecuado  es  un  modelo 
de  Regresión  Lineal  Múltiple.  El  análisis  que  se  realiza  es  análogo  al  presentado,  pero  un  tanto 
más  complejo  (Montgomery,  D.  y Peck,  E.1982) 

Los  resultados  de  la  prueba  son  válidos  si  la  variable  aleatoria  Y tiene  distribución 
normal  y el  modelo  (9.1)  es  el  adecuado. 

Retomando  el  Ejemplo  1,  se  tiene 

1.  H0:  P=0 
que  indican 

Ho:  La  dosis  de  droga  no  explica  linealmente  a la  presión  sanguínea 
Hi:  La  dosis  de  droga  explica  linealmente  a la  presión  sanguínea 

2.  En  base  a los  datos,  sc=24.052. 

3.  Si  el  nivel  de  significación  elegido  es  a=0.05  el  valor  de  critico  es  a = ti4;o.975=2.14,  luego 
Z = (-oo;-2.14]u[2.14;+oo).  Gráficamente 


Gráfico  5:  Nivel  de  significación  y zona  de  rechazo 


4.  Como  el  estadístico  contraste  24.052  pertenece  a la  zona  de  rechazo  Z,  la  decisión  es 
rechazar  la  hipótesis  nula  con  probabilidad  de  cometer  error  de  tipo  I de  0.05. 

5.  La  conclusión  es:  la  dosis  de  la  droga  explica  linealmente  a la  presión  sanguínea. 

SI  el  estadístico  de  contraste  no  perteneciera  a la  zona  de  rechazo,  la  decisión  sería  no 
rechazar  la  hipótesis  nula  con  probabilidad  de  cometer  error  de  tipo  II,  en  cuyo  caso  la 
conclusión  sería:  no  hay  evidencias  de  gue  la  dosis  de  la  droga  expligue  linealmente  a la 
presión  sanguínea. 


9.3. 4.2  Prueba  de  Significación  de  la  Ordenada  al  Origen 

Esta  prueba  debería  realizarse  sólo  cuando  la  regresión  es  significativa,  o sea  cuando 
se  rechaza  la  hipótesis  nula  en  la  prueba  anterior. 

Las  hipótesis  son 

1.  H0:a=0  Hiia^O 
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que  indican 

Ho:  La  recta  pasa  por  el  origen. 

Hi:  La  recta  no  pasa  por  el  origen. 

Para  contrastar  estas  hipótesis  se  define  el  siguiente  estadístico 

-Si  vale  Hq,  s~tn_2  central. 


8 = 


Se* 


' 


—2 

x 


n ¿(x¡  -x)2 

i=l 


y donde  Se  está  definido  como  antes. 

La  zona  de  rechazo  es  Z=(-oo;-a]u[a;+co),  que  se  determina  de  la  forma 
acostumbrada. 

Si  se  rechaza  Ho,  se  puede  afirmar  que  la  recta  no  pasa  por  el  origen. 

En  caso  de  no  rechazar  Ho,  se  dice  que  no  hay  evidencia  para  afirmar  que  recta  no 
pasa  por  el  origen.  Esto  dice  que  podría  establecerse  entre  las  variables  X e Y un  modelo  sin 
ordenada  como  el  siguiente 


Y=pX 

con  lo  cual  se  debería  comenzar  de  nuevo  el  análisis  con  este  modelo  en  vez  del  propuesto  en 
(9.1).  Cabe  señalar  que  este  modelo  plantea  que  al  valor  0 de  la  variable  X corresponde  el 
valor  0 de  la  variable  Y,  lo  cual  debería  tener  sentido  en  el  contexto  del  problema. 

Para  el  Ejemplo  1 la  prueba  de  significación  de  la  ordenada  al  origen  es: 

1.  Ho:a=0  Hitado 

que  Indican 

Ho:  La  recta  pasa  por  el  origen. 

Hi:  La  recta  no  pasa  por  el  origen. 

2.  En  base  a los  datos  sc=  3.356. 

3.  SI  a=0.05,  el  valor  de  critico  es  a=  ti4;o.975=2. 14  (Tabla  D del  Apéndice).  Luego 
Z=(-oo;-2.14]u[2.14;+oo).  Esta  zona  coincide  con  la  presentada  en  el  Gráfico  5. 

4.  Como  el  estadístico  de  contraste  pertenece  a la  zona  de  rechazo,  la  decisión  es  rechazar  la 
hipótesis  nula  con  probabilidad  de  cometer  error  de  tipo  I de  0.05. 

5.  La  conclusión  es:  /a  recta  no  pasa  por  el  origen. 
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9.3.5  Utilidad  de  la  recta  de  regresión  estimada 

La  recta  de  regresión  estimada  se  puede  utilizar  para  predecir  el  valor  de  Y para  un  X 
determinado,  por  ejemplo  para  Xo.  Para  que  esta  predicción  sea  posible  se  deben  verificar  las 
siguientes  condiciones 

• Se  debe  rechazar  Ho  en  las  pruebas  de  significación  de  la  regresión  y de  la  ordenada  al 
origen. 

• El  valor  de  X=Xo  debe  estar  entre  los  valores  mínimo  y máximo,  esto  es  Xm¡n<Xo<Xmax. 

La  segunda  condición  expresa  que  la  relación  establecida  por  la  recta  es  válida  sólo  en 
el  rango  de  los  X considerados.  Fuera  de  este  rango  la  relación  entre  las  variables  puede  no 
ser  la  propuesta  en  (9.1). 

Para  el  Ejemplo  1 se  desea  estimar  la  presión  sanguínea  para  una  dosis  de  droga  de  7 
pg.  Dado  que  se  rechazó  Ho  en  ambas  pruebas  de  hipótesis  y que  Xo=7  está  entre  el  valor 
mínimo  y máximo,  reemplazando  en  la  recta  estimada  se  obtiene  el  valor  deseado,  que  indica 
que  para  una  dosis  de  7 pg  se  estima  una  presión  de  128.83  mm.  Hg. 


9.3.6  Coeficiente  de  Determinación 


El  valor 


R- 


ZZXiYj 

Vi=ij=i 


1 n n 'I 

— ZXiZYj 

n i=i  j=i  ) 


Z Yj2  - nY2 

j=i 


es  llamado  coeficiente  de  determinación  e indica  la  proporción  de  variación  de  Y explicada  por 
la  variable  regresora  X. 

2 

Para  el  Ejemplo  1,  R“=0.976  el  cual  indica  que  97.6%  de  las  variaciones  producidas  en 
la  presión  sanguínea  están  explicadas  por  la  dosis  de  droga. 


9.4  Consideraciones  finales  para  el  uso  de  la  Correlación  y la  Regresión 

1.  Para  poder  realizar  inferencias,  tanto  en  el  Análisis  de  Regresión  como  en  el  de 
Correlación,  se  debe  verificar  el  cumplimiento  de  ciertos  supuestos  (Montgomery,  D.  y 
Peck,  E.1982) 

2.  Cuando  se  realiza  el  Análisis  de  Correlación  Lineal  Simple  se  supone  (por  razones  no 
estadísticas)  que  tiene  sentido  asociar  linealmente  las  variables,  aunque  el  objetivo  no  es 
encontrar  la  forma  de  esa  relación. 

3.  Cuando  se  realiza  un  Análisis  de  Regresión  Lineal  Simple  las  conclusiones  de  las  pruebas 
de  significación  de  los  parámetros  son  válidas  si  el  modelo  (9.1)  es  el  más  adecuado  para 
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describir  la  relación  entre  las  variables  X e Y.  Para  determinar  si  tal  modelo  es  el  adecuado 
se  debe  realizar  un  análisis  que  no  está  al  alcance  de  este  libro  (Montgomery,  D.  y Peck, 
E.1982).  En  los  ejercicios  de  aplicación  se  muestran  algunas  técnicas  de  diagnóstico 
sencillas. 

4.  La  utilización  de  una  u otra  técnica  depende  fundamentalmente  del  objetivo  del 
investigador.  Una  vez  elegida,  la  misma  técnica  condiciona  la  manera  de  realizar  la 
experiencia  para  que  sean  válidos  los  resultados  provistos  por  ella.  Si  se  realiza  un  Análisis 
de  Correlación,  para  llevar  a cabo  la  experiencia  se  miden  (sobre  cada  unidad 
experimental)  las  dos  variables  de  interés;  en  cambio,  cuando  se  lleva  a cabo  un  análisis  de 
Regresión,  sobre  cada  unidad  experimental  se  mide  una  de  las  variables  (Y)  habiendo 
fijado  de  antemano  los  valores  de  la  otra  variable  (X). 

5.  Para  completar  la  información  provista  por  ambos  análisis,  se  podrían  construir  intervalos 
de  confianza  para  los  parámetros  respectivos  aunque  no  serán  mostrados  en  este  texto. 


Ejercicios  de  Aplicación 

i. 

Para  estudiar  si  el  volumen  de  plasma  (X)  y la  albúmina  circulante  (Y)  están  asociados 
linealmente  se  seleccionaron  al  azar  58  varones,  a los  que  se  les  midieron  las  dos 
variables. 

a)  Discutir  la  presencia  o ausencia  de  asociación  lineal  que  podría  sugerir  el  siguiente 
diagrama  de  dispersión  para  los  datos  de  volumen  y albúmina. 


oo  o 


o o0 


13  ~|  o 
6.5 


7.5 

albúmina 


b)  Enunciar  las  hipótesis  correspondientes  a la  prueba  de  correlación. 

c)  El  valor  de  r para  los  datos  de  este  problema  es  0.9509,  ¿Concuerda  este  valor  con 
las  observaciones  que  ha  realizado  en  el  inciso  a)? 

d)  El  valor  p para  la  prueba  de  hipótesis  de  correlación  es  cero.  Extraer  conclusiones 
respecto  del  problema  en  cuestión. 


En  cierta  investigación  forestal  se  ha  planteado  como  objetivo  estudiar  la  posible 
asociación  lineal  entre  el  crecimiento  en  altura  de  los  árboles  y el  aumento  de  su 
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diámetro,  seleccionándose  para  tal  fin  9 árboles  al  azar  a los  que  se  les  midieron  ambas 
variables.  Los  datos  obtenidos  se  presentan  en  la  siguiente  tabla: 


0.2 

0.4 

0.5 

0.5 

0.6 

0.65 

0.65 

0.7 

0.7  | 

4.3 

4.4 

5.3 

6.3 

6.4 

6.5 

7.8 

8.3 

8.5  ! 

Realizar  un  análisis  completo  de  correlación  incluyendo  el  diagrama  de  dispersión. 


3. 


En  el  siguiente  gráfico  se  muestran  cuatro  diagramas  de  dispersión  correspondientes  a 
muestras  de  diferentes  tamaños  pero  con  el  mismo  valor  del  coeficiente  de  correlación 
muestral. 


a)  A partir  de  la  Inspección  de  los  diagramas,  ¿ el  valor  r es  alto  o bajo?. 

b)  Completar  la  siguiente  tabla,  suponiendo  que  el  valor  de  r para  los  diagramas 

anteriores  es  0.1 : 


Tamaño  de 
Muestra 

Valor  del  Estadístico 
Calculado  para  la 
prueba  de  correlación 

Valor  Crítico  de  la 
Prueba 

Decisión  respecto 
de  H0 : p=0 

n=10 

n=50 


n=100 

n=500 


c)  A partir  de  la  tabla  anterior,  discutir  la  relación  entre  la  sensibilidad  de  la  prueba  de 
correlación  y el  tamaño  muestral. 


En  el  siguiente  gráfico  se  muestran  cuatro  diagramas  de  dispersión  correspondientes  a 
muestras  del  mismo  tamaño  (n=10)  pero  con  distintos  valores  del  coeficiente  de 
correlación  muestral. 
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y a A 


r = O.BO 


v 

-3 


Realizar  un  análisis  similar  al  efectuado  en  el  ejercicio  anterior,  teniendo  en  cuenta  que 
en  esta  nueva  situación  el  objetivo  es  estudiar  la  relación  entre  coeficiente  de 
correlación  muestral  y sensibilidad  de  la  prueba  de  hipótesis. 


Con  el  objetivo  de  obtener  predicciones  del  número  de  bacterias  en  función  del  tiempo, 
se  midió  el  número  de  bacterias  en  7 tiempos  seleccionados  previamente, 
obteniéndose  los  siguientes  datos: 


Tiempo  (hs.) 

0 

1 

2 

3 

4 

5 

6 

Número  de  bacterias 

20 

57 

75 

102 

142 

190 

200 

a)  ¿Cuáles  son  las  variables  en  estudio?  ¿Cuál  debería  elegir  como  variable  X y cuál 
como  variable  Y?  Justificar. 

b)  Realizar  el  diagrama  de  dispersión. 

c)  Escribir  las  hipótesis  a contrastar  (para  ambas  pruebas  mencionadas). 

d)  En  la  siguiente  tabla  se  dan  los  parámetros  estimados  y los  valores  p para  las 
pruebas  de  significación  de  la  regresión  y ordenada  al  origen.  Dar  la  ecuación  de  la 
recta  de  regresión  estimada  y graficar.  Indicar  las  conclusiones  para  un  nivel  de 
significación  del  5%. 


P 

31.11 

0.000 

a 

18.68 

0.038 

e)  ¿Para  cuáles  de  los  valores  de  tiempo  que  se  indican  a continuación  es  posible 
predecir  el  número  de  bacterias?:  x=1.2,  x=2,  x=3.7.  Para  aquellos  en  que  sea 
factible  dar  el  valor  de  la  predicción. 


A los  efectos  de  predecir  la  temperatura  del  conejo  después  de  haber  sido  inoculado 
con  virus  de  morriña  en  tiempos  determinados,  se  realizó  el  siguiente  experimento:  se 
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seleccionaron  al  azar  7 conejos  y se  les  Inoculó  el  virus  en  distintos  tiempos  prefijados; 
obteniéndose  los  siguientes  datos: 


Tiempo  después  de 
la  inyección  (hs) 

Temperatura  (°F) 

24 

107.3 

32 

104.5 

48 

105.5 

56 

106.0 

72 

103.9 

80 

103.2  ¡ 

96 

102.1 

a)  ¿Cuál  de  las  dos  variables  es  posible  escoger  como  regresora  y cuál  como 
respuesta? 

b)  Realizar  el  diagrama  de  dispersión  para  los  datos.  ¿Sugiere  éste  que  un  modelo  de 
regresión  lineal  es  el  adecuado? 

c)  Establecer  conclusiones  para  ambas  pruebas  de  significación  a partir  de  la 
siguiente  información: 


Parámetro 


JL 


Parámetro  Estimado 


-0.06 


Valor 


0.01 


a 


108.04 


0.00 


Comparar  los  resultados  con  el  análisis  realizado  en  el  inciso  b). 

d)  A partir  del  diagrama  de  dispersión  realizar  el  gráfico  de  ajuste  del  modelo  y 
establecer  conclusiones. 


Un  ingeniero  agrónomo  desea  predecir  el  rendimiento  de  un  cierto  forraje  a partir  de  la 
cantidad  de  agua  que  recibe.  Para  ello  sembró  dicho  forraje  en  6 parcelas  regadas  con 
distintas  cantidades  de  agua,  medidas  en  cm3.  Las  cantidades  de  agua  y los 
rendimientos  obtenidos  se  Indican  en  la  siguiente  tabla. 


Agua  (cm3) 

12  18  24  30  42  48 

Rendimiento  (tn) 

5.27  5.68  6.25  7.21  8.71  8.42 

a)  ¿Cuál  de  las  variable  se  debe  tomar  como  regresora  y cuál  como  respuesta? 

b)  partir  de  la  siguiente  tabla  concluir  respecto  del  problema  que  se  está  abordando. 


Parámetro  Parámetro  Estimado  Valor 


3 0.1  0.001 

a 4.01  0.000 


c)  A continuación  se  da  el  gráfico  de  ajuste  del  modelo.  Discutir  respecto  de  la 
adecuación  del  modelo  en  cuestión. 
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Rinde=  4,GGB32+.lQG518Agua 


d)  Predecir,  si  es  posible,  el  rinde  para  35  cm3  de  agua. 


En  cada  gráfico  presentado  a continuación  se  muestran:  el  diagrama  de  dispersión,  la 
recta  de  regresión  estimada  (en  trazo  fino),  las  distancias  e¡  de  cada  punto  a la  recta 
(marcadas  con  una  línea  vertical),  la  recta  de  regresión  poblacional  (en  trazo  grueso)  y 
el  valor  de  R2  (multiplicado  por  100). 


R2=88.94 


a)  Discutir  la  relación  entre  el  valor  R2  y el  ajuste  del  diagrama  a la  recta  de  regresión 
estimada. 

b)  ¿A  medida  que  el  valor  R2  aumenta,  que  sucede  con  las  rectas  (estimada  y 
poblacional)?. 


9. 
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Se  dispone  de  10  observaciones  de  temperatura  (X)  (previamente  determinadas)  de 
granos  de  arroz  sin  descascarar  y sus  correspondientes  porcentajes  de  rotura  (Y)  en  la 
molienda.  El  objetivo  es  predecir  el  porcentaje  de  rotura  para  ciertas  temperaturas. 


Temp. 

33.9 

34.6 

34.5 

36.9 

37.1 

37.3 

28.8 

29.6 

30.7 

31.2 

Rotura 

39.1 

39.7 

39.95 

42.2 

42.81 

43 

33.68 

34.7 

35.6 

36.3 

a)  El  valor  p para  la  prueba  de  significación  de  la  regresión  es  0 y el  correspondiente  a 
la  prueba  para  la  ordenada  al  origen  es  0.002.  ¿Qué  conclusiones  se  pueden 
obtener  a partir  de  estos  valores  de  p y del  gráfico  de  ajuste  del  modelo  que  se 
presenta  a continuación? 


Rotura=  2.61896+1.0 /845Temp. 


b)  Suponga  que  se  efectuó  una  nueva  medición  para  una  temperatura  de  31.2  grados 
y se  obtuvo  un  porcentaje  de  rotura  del  50%.  Cuando  este  dato  se  incorpora  al 
análisis  los  valores  de  p son  0.104  y 0.372  para  las  pruebas  relativas  a los 
parámetros  p y a,  respectivamente.  El  gráfico  de  ajuste  del  modelo  es  el  siguiente: 


Roturas»  18.6021  + ./  85721Temp. 
50  -j 


45  H 


30  H 

1 1 r~ 

30  35  40 

Temp. 

¿Cómo  se  ubica  el  nuevo  par  (31.2,  50)  respecto  de  los  restantes  pares?  ¿Cuál  ha  sido 
el  efecto  de  dicho  punto  sobre  el  ajuste  del  modelo? 
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c)  Si  en  lugar  de  incorporar  la  medición  (31.2,50)  se  hubiese  incorporado  la  medición 
(45,  79)  los  valores  p para  las  pruebas  relativas  a los  parámetros  p y a serían  0 y 
0.014  respectivamente.  El  gráfico  de  ajuste  del  modelo  es: 


Rotupflf -42. 2288+2.45 14  ITemp. 


Discutir  las  diferencias  entre  este  caso  y el  dado  en  el  inciso  b). 
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Objetivos: 

♦ Distinguir  las  distintas  aplicaciones  de  la  prueba  de  Ji-Cuadrado. 

♦ Aplicar  la  prueba  a diferentes  situaciones. 


10.1  Introducción 

En  este  capítulo  se  analizan  algunas  situaciones  que  no  se  pueden  resolver  con  las 
técnicas  presentadas  anteriormente.  En  capítulos  anteriores  se  analizaron  variables  de  tipo 
cuantitativo;  a continuación  se  presentan  situaciones  que  involucran  además  variables 
cualitativas  o categorizadas,  que  pueden  ser  analizadas  a través  de  una  prueba  de  hipótesis 
particular,  denominada  Prueba  de  Ji-  Cuadrado. 

Se  debe  recordar  que  las  variables  cualitativas  son  aquellas  cuyos  diferentes  estados 
se  pueden  expresar  por  medio  de  una  cualidad,  por  ejemplo:  sexo,  raza,  color,  nivel 
educacional,  preferencia  por  un  producto,  aptitud  hacia  la  lectura.  Todas  ellas  requieren  un 
análisis  estadístico  diferente  a los  desarrollados  hasta  el  momento. 

A continuación  se  presentan  situaciones  en  las  cuales  se  puede  aplicar  la  Prueba  de  Ji- 
Cuadrado: 

1.  En  el  caso  de  variables  cualitativas,  se  puede  estar  interesado  en  saber  si  sus  categorías 
se  manifiestan  en  una  determinada  proporción  o si  las  variables  están  relacionadas.  Por 
ejemplo: 

* Al  tirar  un  dado  se  desea  saber  si  está  equilibrado. 

* En  un  estudio  genético  se  quiere  confirmar  si  una  característica  (por  ejemplo  el 
color  de  cabello)  se  da  en  una  determinada  proporción. 

* En  encuestas  de  opinión  el  objetivo  es  confirmar  la  proporción  de  votos 
favorables  y desfavorables  para  un  candidato. 

" En  una  experiencia  con  niños  de  12  años  se  desea  determinar  si  existe 

relación  entre  el  estado  nutricional  y el  coeficiente  intelectual. 

2.  En  el  caso  de  variables  cuantitativas  (discretas  o continuas),  se  desea  establecer  si  se 
ajustan  a una  distribución  teórica  determinada.  Por  ejemplo: 

* En  cierto  estudio  se  desea  determinar  si  la  altura  de  los  adultos  se  distribuye 
como  una  Normal  con  media  1.71  m.  y desvío  0.5  m. 

* Se  está  interesado  en  determinar  si  el  Número  de  animales  sanos  de  una 
cierta  raza  se  distribuye  como  una  Binomial  con  parámetros  n=10  yp=0.8. 

Para  desarrollar  las  distintas  aplicaciones  de  esta  prueba  se  formulan  diferentes 
situaciones,  cada  uno  de  las  cuales  corresponde  a una  aplicación  distinta.  A continuación  se 
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presentan  cada  una  de  ellas. 


10.  2 Prueba  de  Concordancia 

Ejemplo  1:  Un  médico  tiene  la  sospecha  que  cierta  enfermedad  (que  requiere  hospitalización) 
afecta  igualmente  a hombres  y a mujeres,  es  decir,  que  se  presenta  en  la  misma  proporción 
para  los  dos  sexos. 

Sean  pi  y p2  las  proporciones  de  hombres  enfermos  y mujeres  enfermas, 
respectivamente.  Como  sólo  hay  dos  categorías,  al  decir  que  se  espera  la  misma  proporción, 
cada  una  de  ellas  debería  ser  !4.  Estadísticamente  esto  se  traduce  en  las  siguientes  hipótesis 

Hq:  pi=l/2,  p2=l/2  Hp  al  menos  una  distinta 


que  indican 

Ho:  Cierta  afección  para  hombres  y mujeres  se  da  en  la  proporción  1:1. 

Hi:  Lo  contrario. 

A continuación,  para  cotejar  (confirmar  o descartar)  esta  afirmación  se  debe  realizar  un 
experimento  aleatorio.  Éste  consiste  en  seleccionar  una  persona  enferma  hospitalizada  y 
registrar  su  sexo,  y repetir  esto  una  cierta  cantidad  de  veces  prefijada. 

Suponga  que  se  seleccionaron  900  pacientes  y se  los  clasificó  de  acuerdo  al  sexo  (la 
variable  en  estudio)  y se  contó  la  cantidad  de  personas  enfermas  de  cada  sexo.  Dicha 
información  se  puede  resumir  en  una  tabla  de  frecuencias  como  la  siguiente: 


Tabla  1:  Distribución  de  los  enfermos 
según  el  sexo 


SEXO 

fo 

Masculino 

480 

Femenino 

420 

TOTAL 

900 

En  el  problema  planteado  se  tiene  una  variable  cualitativa  Sexo,  la  cual  tiene  dos 
categorías  (Hombre,  Mujer).  Para  poder  trabajar  este  tipo  de  variables  numéricamente  lo  que  se 
hace  es  contar  el  N°  de  observaciones  en  cada  categoría  de  la  variable  ( frecuencia  observada 
de  cada  categoría),  con  lo  que  se  pasa  de  una  variable  aleatoria  cualitativa  a una  variable 
aleatoria  discreta. 

Los  valores  observados  en  este  experimento  son: 

f0i:  n°  de  pacientes  hombres  (de  un  total  de  900). 
fo2:  n°  de  pacientes  mujeres  (de  un  total  de  900). 

Si  se  cumpliera  la  afirmación  del  médico,  de  los  900  pacientes  enfermos  deberían  ser 
450  hombres  y 450  mujeres.  Estos  números  son  llamados  frecuencias  esperadas  o teóricas,  las 
cuales  son  denotadas  generalmente  por  fe. 

Para  saber  si  la  proporción  de  hombres  y mujeres  es  la  misma,  es  natural  basarse  en  la 
comparación  entre  las  dos  frecuencias  (las  obtenidas  experlmentalmente  y las  propuestas  por 
el  experimentador).  En  este  caso,  se  desea  comparar  las  frecuencias  observadas  (480 
hombres  y 420  mujeres)  con  las  frecuencias  esperadas  de  acuerdo  a la  afirmación  del  médico 
(450  hombres  y 450  mujeres). 
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Parece  natural  entonces  definir  un  estadístico,  para  probar  estas  hipótesis,  en  función 
de  las  frecuencias  esperadas  o teóricas  (parámetro  a estimar)  y de  las  frecuencias  observadas 
(variables  aleatorias)  (Mendenhall,  W.  et.  al.  1994)  Luego  el  estadístico  definido  para  esta 
prueba  es: 


k (f  . -f  ,)2 
8 = X!  V 01  et  / 

i=l  f"ei 

donde  %k-l  indica  la  distribución  Ji-Cuadrado  con  k grados  de  libertad  (k  es  la  cantidad  de 
categorías  de  la  variable).  En  el  problema  planteado  se  tienen  dos  categorías  hombre-mujer 

2 

entonces  s ~%1  si  vale  Ho. 

Se  puede  observar  que  este  estadístico  toma  siempre  valores  mayores  o iguales  a cero 
pues  está  definido  como  un  suma  de  cuadrados  dividido  un  número  positivo. 

Si  la  frecuencia  teórica  y la  frecuencia  observada  son  iguales,  la  diferencia  (f0i-fei)  para 
cada  categoría  es  cero  y por  lo  tanto  el  estadístico  es  cero,  con  lo  cual  no  habría  dudas  acerca 
de  la  decisión  a tomar:  no  se  puede  rechazar  la  Ho. 

Sin  embargo,  rara  vez  las  frecuencias  observadas  son  exactamente  iguales  a las 
esperadas  por  lo  cual  el  estadístico,  en  general,  resulta  un  valor  diferente  de  cero.  Se  debe 
decidir  si  esto  se  debe  al  azar  o a que  no  se  da  la  proporción  esperada. 

Para  tomar  la  decisión,  se  debe  determinar  el  valor  crítico  a,  que  indicará  cuándo  las 
diferencias  son  lo  suficientemente  grandes  como  para  considerar  f0¡  diferente  de  fe¡.  Luego  la 
zona  de  rechazo  Z de  esta  prueba  es  siempre  unilateral  derecha,  es  decir  Z=[a,+oo). 


Gráfico  1:  Nivel  de  significación  y zona  de  rechazo 

Si  en  el  problema,  el  nivel  de  significación  considerado  para  probar  las  hipótesis  es 
a=0.0 1 , entonces  el  valor  crítico  es  a = Xi  o oí  =6-63  (T abla  E del  Apéndice). 

Para  calcular  el  valor  numérico  del  estadístico  se  deben  determinar  las  frecuencias 
esperadas  o teóricas  fe,  para  lo  cual  se  debe  tener  en  cuenta  la  siguiente  definición: 

Definición  1:  Sea  E un  experimento  aleatorio  y S el  espacio  muestral  asociado  a él.  Para  un 
suceso  cualquiera  A de  S 
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feA=N.P(A) 


donde  N indica  el  tamaño  de  la  muestra. 

Utilizando  esta  definición  en  el  Ejemplo  1 se  tiene  que 

fel  =900.^  = 450  y fe2  = 900  .i  = 450 

Estos  valores  coinciden  con  los  que  se  obtuvieron  anteriormente  de  manera  intuitiva, 
aunque  no  en  todos  los  casos  las  frecuencias  esperadas  pueden  ser  determinadas  en  forma 
inmediata. 

El  valor  numérico  del  estadístico  es: 

_ (480-450)2  (420-450)2  _900  900  , 

Sc_  450  + 450  -45Ó+45Ó-  + 

Luego  dado  que  el  sc=4  y este  valor  no  pertenece  a Z,  entonces  no  se  rechaza  Ho  con 
probabilidad  de  cometer  error  de  tipo  II  y se  puede  concluir  que  no  hay  evidencia  para  decir  que 
la  enfermedad  no  se  da  en  la  misma  proporción  en  hombres  y mujeres  (no  hay  suficiente 
evidencia  para  contradecir  la  afirmación  del  médico). 

A continuación  se  detallan  algunos  aspectos  generales  de  esta  prueba. 

1.  Hipótesis 

Ho:  pi=pi.o,  P2=P2.0v?Pk=Pk.o  Hp  al  menos  una  diferente 

donde  pío,  p2.o,-"?Pk.o  son  valores  conocidos,  no  necesariamente  iguales 

2.  Estadístico  de  la  prueba  (propuesto  por  Karl  Pearson):  es  una  variable  aleatoria  pues  f0  es 
variable  aleatoria  (su  valor  depende  de  la  muestra).  Este  estadístico  tiene  una  distribución 
aproximada  Ji-Cuadrado,  con  k— 1 grados  de  libertad,  o sea  número  de  categorías  de  la 
variable  en  estudio  menos  1.  La  prueba  matemática  correspondiente  para  determinar  que  el 
estadístico  asume  una  distribución  aproximadamente  Ji-Cuadrado  está  fuera  del  alcance  de 
este  libro  (Agresti,  A.  1990). 

3.  Zona  de  Rechazo:  Para  esta  prueba  la  zona  de  rechazo  que  corresponde  siempre  es 
Z=[a ,+qo)  Esta  forma  particular  de  la  zona  de  rechazo  depende  del  estadístico  como  se  puede 
observar  a continuación:  si  las  f0  son  muy  parecidas  a las  fe,  la  decisión  correcta  es  la  de  no 
rechazar  la  hipótesis  nula,  y en  ese  caso  el  valor  numérico  del  estadístico  será  un  valor 
pequeño  (cerca  de  cero);  si  las  f0  son  muy  distintas  de  las  fe  el  valor  numérico  del  estadístico 
será  grande  (lejos  de  cero)  en  cuyo  caso  se  debería  tomar  la  decisión  de  rechazar  la  hipótesis 
nula. 


Ejemplo  2:  Se  desea  estudiar  si  un  rasgo  particular  de  la  mandíbula  se  considera  heredado  en 
la  proporción  1:2:1  para  homocigota  dominante,  heterocigota  y homocigota  recesivo  (AA,Aa,aa) 
respectivamente.  Para  ello  se  seleccionan  150  niños  al  azar,  cuyas  frecuencias  observadas  en 
cada  categoría  se  indican  en  la  siguiente  tabla. 
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Tabla  2:  Frecuencias  observadas  por  categorías 


Categorías 

Dominante 

Heterocigota 

Recesivo 

fo 

31 

92 

27 

Las  hipótesis  a probar 


1.  H0:  pi=pi.o=l/4  P2=P2.o=1/2  P3=P3.o=1/4 

Hp  al  menos  una  diferente 

es  decir 

Ho:  El  rasgo  se  hereda  en  la  proporción  1:2:1  para  Homocigota  Dominante  (D),  Heterocigota 
(H)  y Homocigota  Recesivo  (R)  respectivamente. 

Hp  Lo  contrario. 

2 

2.  Si  vale  Ho,s  ~%k-l  central. 

k (f  -f  )2 
i=l  f"ei 

^ 2 
Si  no  vale  Hq,s  ~ Xk-1  no  central. 


3.  Si  a=0.05,  se  tiene  que  el  valor  crítico  es  a = X2,o.05  =5-99  (Tabla  E). 

4.  Para  calcular  el  estadístico  se  necesitan  de  las  frecuencias  observadas,  que  se  determinan 
en  forma  experimental  y de  las  frecuencias  teóricas  o esperadas  de  cada  categoría  que  se 
determinan  utilizando  la  Definición  1.  Para  este  ejemplo  las  fe  resultan 

feD  =n.P(D)  = 150. ^-  = 37.50 
feH=n.P(H)  = 150.i  = 75 
feR  =n.P(R)  = 150.  ^-  = 37.50 


Luego  sc=7.92. 

5.  Dado  que  7.92  e Z , la  decisión  es  rechazar  Ho  con  P(cometer  error  de  tipo  l)=0.05 

6.  Conclusión:  el  rasgo  particular  de  la  mandíbula  no  es  heredado  en  la  proporción  1:2:1  para 
Homocigota  Dominante,  Heterocigota  y Homocigota  Recesivo. 


10.3  Tablas  de  Contingencia 

Cuando  se  tienen  dos  variables  de  tipo  cualitativo  y se  desea  estudiar  si  existe  relación 
entre  ambas  o determinar  si  la  proporción  de  ocurrencia  de  una  de  las  categorías  de  una  de  las 
variables  (éxito)  es  la  misma  para  todas  las  categorías  de  la  otra  variable.  Las  frecuencias 
observadas  son  arregladas  en  tablas  de  contingencias  o tablas  de  doble  entrada,  que  fueron 
definidas  en  el  Capítulo  1. 

Cuando  los  datos  se  disponen  en  este  tipo  de  tablas  se  pueden  presentar  dos 
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situaciones  experimentales  como  las  siguientes: 

1 . Sólo  el  total  general  está  fijo. 

2.  Los  totales  por  fila  o por  columna  están  fijos. 

Cuando  la  situación  experimental  es  como  la  expuesta  en  el  caso  1 se  realiza  una 
Prueba  de  Independencia,  mientras  que  para  el  caso  2 corresponde  la  prueba  de 
Homogeneidad  de  Proporciones.  SI  todos  los  totales  están  fijos,  corresponde  otra  prueba  que 
no  será  presentada  en  este  texto  (Ato  García,  M.  y López  García,  J.  1996). 


10.3.1.  Prueba  de  Independencia 

Ejemplo  3:  Sobre  la  base  de  los  datos  del  Problema  1.6,  el  Investigador  está  interesado  en 
estudiar  si  existe  relación  entre  el  color  de  pelaje  y la  presencia  de  tumores  cutáneos  en 
equinos. 

Este  problema  se  diferencia  de  los  anteriores  por  el  hecho  de  que  se  estudian  dos 
variables  de  tipo  cualitativo:  Color  de  pelaje  y Presencia  de  tumor.  Cada  variable  está  dividida 
en  categorías  excluyentes:  la  variable  Color  tiene  tres  categorías  (Alazán,  Zaino,  Tordillo)  y la 
variable  Presencia  de  tumor  tiene  dos  categorías  (Sí,  No). 

El  experimento  consiste  en  "Observar  un  equino  y clasificarlo  de  acuerdo  al  color  y a la 
presencia  del  tumor". 

Suponga  que  se  realizó  el  experimento  y las  frecuencias  observadas  que  resultan  para 
cada  caso  son  las  que  se  indican  en  la  siguiente  tabla 


Tabla  31:  Distribución  de  frecuencias  según  el  color  y presencia  del  tumor. 


PRESENCIA  DE  TUMOR 
COLOR 

Si 

No 

TOTAL 

Alazán 

220 

80 

300 

Zaino 

135 

115 

250 

Tordillo 

415 

35 

450 

TOTAL 

770 

230 

1000 

Las  hipótesis  a probar  en  este  caso  son 

1 . H0:  Pij=Pi-Pj  Hi : py  A p¡.pj 

que  Indican 

Ho:  El  color  y la  presencia  de  la  enfermedad  son  independientes 

Hp  El  color  y la  presencia  de  la  enfermedad  no  son  independientes  (son  dependientes). 


2.  8=  X 

i=l 


I vale  H0,  s ~ X(c-i)(f-i)  central 


2 

i no  vale  Ho,  8 ~ X(c-i)(f-i)  no  central 


donde  c indica  la  cantidad  de  columnas  (categorías  de  una  de  las  variables)  y f:  es  la  cantidad 


1 Coincide  con  la  Tabla  5 del  Capítulo  1. 
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de  filas  (categorías  de  la  otra  variable).  En  este  problema  los  grados  de  libertad  que 
corresponden  son  (2 — 1 )»(2 — 1 )=  1 . 


9 

3.  SI  a=0.01,  la  zona  de  rechazo  es  Z=[a,+co)  con  a = X2  0 01  = 9-21  (Tabla  E). 

4.  Para  calcular  el  valor  numérico  del  estadístico,  se  deben  determinar  las  frecuencias 
esperadas  de  cada  categoría,  utilizando  la  Definición  1 y bajo  el  suposición  de  que  la  Hipótesis 
nula  es  verdadera  (o  sea  que  las  dos  variables  son  Independientes). 

Entonces,  por  ejemplo,  para  calcular  la  frecuencia  esperada  del  suceso  Alazán  (A)  y Sí  (S)  se 
procede  de  la  siguiente  manera 

fc,AS,  = N • P(AS)  = N . P(A) . P(S)  = N . ^ . Hs.  = 


donde: 

N es  el  tamaño  de  la  muestra. 

iia  Y ns  son  los  totales  marginales  (número  de  alazanes  y número  de  animales  con 
tumor,  respectivamente). 

Esta  Igualdad  es  válida  por  la  independencia  de  los  sucesos  y por  la  definición  clásica  de 
probabilidad. 

Para  el  Ejemplo  3 las  frecuencias  esperadas  son: 


P 300.770 

Mas)  = = 231 


e(AN) 


e(TS) 


1000 

300.230 


1000 

450.770 

1000 


= 69 


= 346.5 


fe(zsr^.192.5 


e(ZN) 


e(TN) 


1000 

250.230 
1000 

450.230 
1000 


= 57.5 


= 103.5 


Reemplazando  en  la  expresión  del  estadístico  las  frecuencias  observadas  y esperadas,  se 
obtiene  sc=135.83. 


5.  Dado  que  el  estadístico  pertenece  a Z,  se  rechaza  la  hipótesis  nula  con  probabilidad  de 
cometer  error  de  tipo  1 de  0.0 1 . 

6.  Conclusión:  existe  relación  entre  el  color  de  pelaje  y presencia  de  tumor. 


10.3.2.  Prueba  de  Homogeneidad  de  proporciones 

Ejemplo  4:  Para  comprobar  si  el  uso  regular  de  la  aspirina  reduce  la  mortalidad  por  infarto  de 
miocardio  en  adultos,  se  le  suministró  placebo  a 11034  adultos  y aspirina  a 11037,  registrando  a 
lo  largo  de  5 años  si  sufrieron  infarto  de  miocardio.  En  este  experimento  los  adultos  no  sabían  si 
recibían  placebo  o aspirina.  Los  datos  obtenidos  se  presentan  en  la  siguiente  tabla. 
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Tabla  4:  Distribución  de  frecuencias  según  presencia  o no  de  Infarto  y el  grupo. 


INFARTO  DE  MIOCARDIO 
GRUPO 

SI 

NO 

TOTAL 

PLACEBO 

189 

10845 

11034 

ASPIRINA 

104 

10933 

11037 

TOTAL 

293 

21778 

22071 

La  cantidad  de  pacientes  que  recibieron  aspirina  y placebo  está  fija  de  antemano  para 
la  experiencia,  por  lo  que  se  trata  de  una  tabla  con  los  marginales  por  filas  fijos,  luego  las 
hipótesis  a probar  en  este  caso  son 


1. H0:pn  = p2i  Hi:pn*p2i 

En  palabras  estas  hipótesis  dicen: 

Ho:  La  proporción  de  los  adultos  que  sufrieron  infarto  de  miocardio  es  Igual  para  el  grupo  que 
recibió  placebo  y para  el  que  recibió  aspirina. 

Hp  La  proporción  de  los  adultos  que  sufrieron  infarto  de  miocardio  es  diferente  para  el  grupo 
que  recibió  placebo  y para  el  que  recibió  aspirina. 

2.  El  estadístico  de  contraste  es  Idéntico  al  del  caso  anterior  (expresión  y grados  de  libertad): 

2 

SI  vale  H0,  s ~ central 

k (f  . -f  ,)2 

c = X!  ~ 01  ei 

i=l  f"ei 

3.  SI  a=5%,  la  zona  de  rechazo  es  Z=[a,+co),  donde  a = X^001  = 6-63  (Tabla  E). 

4.  Las  frecuencias  teóricas  se  determinan  igual  que  en  el  caso  anterior: 


fe(PS) 


293.11034 

22071 


= 146.48 


fe(PN) 


21778-11034  =1088732 
22071 


fe(AS)  = 


293.11037 

22071 


= 146.52 


íe(AN) 


21778.11037 

22071 


10890.48 


Entonces  sc=25.014 

5.  Como  8C  pertenece  a Z se  rechaza  la  hipótesis  nula  con  probabilidad  de  cometer  error  de 
Tipo  I de  0.01 . 

6.  Conclusión:  la  proporción  de  adultos  que  sufrieron  infarto  de  miocardio  es  diferente  para  los 
que  recibieron  placebo  y aspirina. 

La  comparación  que  se  realizó  entre  las  proporciones  de  adultos  que  sufrieron  infarto, 
puede  realizarse  equivalentemente  para  aquellos  que  no  sufrieron  infarto. 
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10.4  Prueba  de  Bondad  de  Ajuste 


Para  desarrollar  esta  prueba  se  utilizará  el  siguiente: 

Ejemplo  5:  Se  desea  saber  si  la  variable  X:  número  de  semillas  germinadas  en  paquetes  de  4 
semillas  sigue  la  distribución  binomlal.  Se  sabe  que  la  probabilidad  de  que  una  semilla  germine 
es  p=0.70. 

Solución: 


Primeramente  puede  verificarse  que  el  experimento  de  extraer  4 semillas  y ver  si 
germinan  cumple  los  supuestos  del  modelo  Binomlal  y por  tanto  se  puede  pensar  que 
Xb~B(4,0.70)  siendo  el  recorrido  de  la  variable  R(Xb)=0,l  ,2,3,4.  Para  comprobar  si 
efectivamente  la  variable  Xb  tiene  distribución  binomlal  con  los  parámetros  Indicados  se  toma 
una  muestra  aleatoria  de  150  paquetes  de  4 semillas  cada  uno.  Los  resultados  se  indican  en  la 
siguiente  tabla. 


Tabla  5:  Distribución  de  los  paquetes  de  acuerdo 
al  número  de  semillas  que  germinan 


Xb:  Número  de  semillas 
que  germinan 

fo 

0 

2 

1 

20 

2 

42 

3 

56 

4 

30 

Total 

150 

Los  datos  de  esta  tabla  Indican,  por  ejemplo,  que  de  los  150  paquetes  hay  2 en  los  que 
no  germinó  ninguna  semilla,  20  en  los  que  germinó  una  semilla,  etc. 

Se  está  ahora  en  condiciones  de  plantear  las  siguientes  hipótesis 

1.  Ho:  Xb~  B(4,0.70)  Hi:  Lo  contrario 

es  decir 

Ho:  La  variable  X:  Número  de  semillas  germinadas  en  paquetes  de  cuatro  semillas  sigue  la 
distribución  Binomlal  con  parámetros  n=4  y p=0.70. 

2.  El  estadístico  de  contraste  es 


k (f  • -f  V 

g _ ^ Vxoi  ei  > 


i=l 


f 


SI  vale  Hq,  8 ~ Xk-m-1  cer|tral 


Si  no  vale  Hq,  s ~ Xk-m-1  no  cer|tral 


donde  k Indica  la  cantidad  de  valores  que  toma  la  variable  y m la  cantidad  de  parámetros  a 
estimar. 

2 

Para  este  problema  el  estadístico  s tiene  distribución  x 5-0-1  dado  que  m=0  porque  se 
conocen  los  valores  de  n y p. 
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En  general  el  valor  de  n es  siempre  conocido;  en  tanto  que  el  parámetro  p puede  ser 
conocido  o no.  En  caso  que  sea  desconocido  puede  ser  estimado  teniendo  en  cuenta  que 
E(Xb)=n.p  y como  la  media  muestral  es  un  buen  estimador  de  la  media  poblaclonal  (o  sea  que 

X 

E(Xb ) = X ) entonces  se  puede  considerar  que  X = n . p , de  donde  p = — . 

n 

3.  SI  a=5%,  la  zona  de  rechazo  es  Z=[a,+oo)  con  a = %4  005  =9.49  (Tabla  E),  lo  que  se 
puede  visualizar  en  el  siguiente  gráfico. 


Gráfico  2:  Nivel  de  significación  y zona  de  rechazo 
para  el  Ejemplo  5 

4.  Para  calcular  el  estadístico  de  contraste  se  deben  determinar  las  frecuencias  esperadas  fe, 
sobre  la  base  de  la  Definición  1 y teniendo  en  cuenta  que  la  variable  Xb~B(4,0.70)  bajo  Ho. 

fel  = 1 50 . P(Xb  = 0)  = 1 50 . 0.008  = 1.2 
fe2  = 150.  P(Xb  =1)  = 150.0.076  = 11.4 
fe3  = 1 50 . P(Xb  = 2)  = 1 50 . 0.265  = 39.75 
fe4  =150.  P(Xb  =3)  = 150.0.412  = 61.8 
fe5  = 150.P(Xb  =4)  = 150.0.240  = 36 

donde  los  valores  de  las  probabilidades  son  obtenidos  de  la  Tabla  A del  Apéndice.  A partir  de 
esta  información,  sc=8.96. 

5.  Como  el  sc  no  pertenece  a Z,  la  decisión  es  no  rechazar  Ho,  con  probabilidad  de  cometer 
Error  de  tipo  II. 

6.  Conclusión:  no  hay  evidencias  para  decir  que  la  variable  X:  número  de  semillas  que  germinan 
entre  las  cuatro  seleccionadas,  no  sigue  la  distribución  Binomial  con  parámetros  n=4  y p=0. 70. 

En  el  problema  anterior  se  deseaba  ver  si  la  distribución  teórica  de  la  variable  en 
estudio  era  Binomial.  También  se  podría  estudiar  si  una  determinada  variable  aleatoria  tiene 
distribución  de  Polsson,  Normal,  etc.;  la  única  diferencia  es  que  la  frecuencia  esperada  depende 
que  distribución  planteada  en  la  hipótesis  nula  (Meyer,  P.  1992). 
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10.5  Conclusiones  Finales 


1.  En  problemas  donde  puede  aplicarse  la  Prueba  de  Homogeneidad  de  Proporciones  y se 
tienen  sólo  dos  proporciones  a comparar,  se  puede  utilizar  también  la  Prueba  de  Diferencia 
de  Proporciones  (Capítulo  7). 

2.  Cuando  los  datos  experimentales  pueden  ser  arreglados  en  tablas  de  contingencia  2x2  se 
suelen  utilizar  algunas  medidas  de  asociación  que  ayudan  a la  interpretación  de  la 
información  experimental.  Entre  las  medidas  que  se  pueden  determinar  están  el  Riesgo 
Relativo  y los  Odds  Ratios.  Para  más  detalle  Agrestl,  A.  (1990)  y Ato  García,  M.  y López 
García,  J.  (1996). 

3.  Para  el  caso  de  tablas  de  contingencia  2x2  que  tengan  todos  los  totales  marginales  fijos,  se 
utiliza  la  Prueba  Exacta  de  Fisher  (Agresti,  A.  - 1996). 

4.  Las  frecuencias  esperadas  no  deben  ser  menores  a 1 y no  más  del  20%  menores  a cinco. 
SI  esto  no  se  cumple  hay  que  combinar  las  categorías  de  las  variables  para  que  las 
frecuencias  esperadas  tengan  la  magnitud  deseada  (Snedecor,  G.W.  y Cochran,  W.G. 
1978) 


5. 


Cuando  el  estadístico  tiene  distribución  Jl-Cuadrado  con  un  solo  grado  de  libertad  se 
considera  que  la  aproximación  a esta  distribución  no  es  adecuada,  por  lo  que  conviene 
realizar  una  corrección  llamada  la  Corrección  de  Yates.  En  base  a ésta  el  estadístico  a usar 
es 


k 

e=  I 


i=l 


(|fe-fo|-l/2)2 

fe 


6.  Las  variables  cuantitativas  pueden  categorlzarse,  no  teniendo  en  cuenta  las  medidas  reales 
sino  sólo  las  categorías  y sus  frecuencias. 


Ejercicios  de  Aplicación 

i. 

En  ciertos  casos  de  herencia  se  ha  encontrado  que  algunas  características  son 
heredadas  en  la  proporción  3:1,  es  decir  a la  larga  tres  cuartos  de  la  descendencia 
tendrán  una  característica  dada  y un  cuarto  no. 

En  un  ensayo  se  cruzaron  plantas  con  cotiledones  amarillos  con  plantas  con 
cotiledones  verdes,  observándose  que  en  F2  (segunda  generación  filial)  6022  plantas 
tenían  cotiledones  amarillos  y 2001  verdes.  Se  desea  probar  (estadísticamente)  que  el 
color  se  hereda  en  la  proporción  3:1  (amarillos,  verdes). 

a)  ¿Cuál  sería  la  prueba  adecuada  en  este  caso? 

b)  Escribir  las  hipótesis  correspondientes. 

c)  ¿Cuál  es  el  estadístico  y cuál  es  su  distribución  teórica? 

d)  Realizar  el  análisis  adecuado  y escribir  la  conclusión. 


Se  desea  saber  si  un  tratamiento  es  efectivo  para  curar  cierta  infección  ocular.  Para 
tomar  una  decisión  se  eligieron  aleatoriamente  200  enfermos,  algunos  de  los  cuales 
recibieron  tratamiento  y otros  no,  obteniéndose  los  siguientes  resultados: 
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CURADOS 

NO-CURADOS 

TRATADOS 

140 

20 

NO  TRATADOS 

10 

30 

a)  ¿Cuáles  son  las  variables  que  intervienen  y a qué  tipo  corresponden? 

b)  ¿Cuál  es  la  prueba  adecuada  para  este  problema?  Indicar  las  hipótesis 
correspondientes. 

c)  Para  obtener  el  valor  numérico  del  estadístico.  ¿Qué  información  es  necesaria? 
Calcularlo. 

d)  Determinar  aproximadamente  el  valor  p del  test  y obtener  conclusiones. 


En  pacientes  con  úlcera  gástrica  se  desea  establecer  si  existe  relación  entre  el  lugar  de 
la  úlcera  y el  grado  de  malignidad. 

a)  ¿Cuál  es  la  prueba  adecuada  para  resolver  este  problema? 

b)  Indicar  las  hipótesis  correspondientes. 

c)  Para  tomar  una  decisión  sobre  las  hipótesis  planteadas  se  observaron  211 
pacientes  clasificándolos  de  la  siguiente  forma: 


GRADO  DE  MALIGNIDAD 
LUGAR 

Benigna 

Maligna 

Prepilórica 

87 

34 

Cuerpo 

52 

19 

Cardias 

11 

8 

Establecer  conclusiones  a partir  de  la  muestra. 


En  estudios  genéticos  se  ha  encontrado  que  el  25%  de  las  moscas  de  la  fruta  tienen 
ojos  blancos.  En  un  ensayo  se  encontró  que  1981  moscas  de  la  fruta  tenían  ojos 
blancos,  mientras  que  7712  los  tenían  rojos  ¿Concuerdan  estos  resultados  observados 
con  la  proporción  teórica? 


En  un  estudio  realizado  con  vacas  de  distintas  razas  se  deseaba  determinar  si  la 
fecundidad  está  asociada  con  las  razas. 

a)  Decir  cuál  es  la  prueba  adecuada  para  resolver  este  problema. 

b)  Para  comprobar  lo  anterior  se  clasificaron  los  animales  de  acuerdo  a la  siguiente 
tabla: 


FECUNDIDAD 

RAZA 

Fecundados 

No  Fecundados 

Charolés 

515 

1287 

Indubrasil 

506 

665 

Nerolé 

58 

70 

Char-Cebú 

205 

93 

Plantear  las  hipótesis  correspondientes  y dar  la  conclusión  sabiendo  que  el  valor  del 
estadístico  es  204.61  y su  correspondiente  valor  p es  0.000. 


En  un  ensayo  se  cruzaron  arvejas  de  flores  azules  (B)  y granos  de  polen  alargado  (L) 
con  otras  de  flores  rojas  (b)  y granos  de  polen  redondeados  (I).  Como  estas 
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características  se  heredan  independientemente,  en  la  segunda  generación  deberían 
aparecer  las  cuatro  categorías  siguientes  BL,  Bl,  bL,  bl  en  la  proporción  de  Mendel 
9:3:3: 1.  Se  observaron  419  plantas  encontrándose  lo  siguiente: 


B 

b 

L 

226 

97 

1 

95 

1 

a ) ¿Qué  se  desea  probar  en  este  caso? 

b)  El  valor  del  estadístico  resultó  32.394  y el  valor  p=0.0.Tomar  la  decisión  y dar  la 
conclusión  en  términos  del  problema. 


En  una  encuesta  de  salud  realizada  en  la  provincia  de  Tucumán  se  obtuvo  la  siguiente 
distribución  del  número  de  hijos  varones  en  familias  con  4 hijos. 


x, 

0 

1 

2 

3 

4 

fi 

5 

20 

44 

24 

7 

Determinar  si  esta  distribución  se  aparta  de  la  Binomial,  suponiendo  que  ambos  sexos 
son  igualmente  probables. 


Se  llevó  a cabo  un  muestreo  para  estimar  el  número  medio  de  insectos  por  parcela 
cultivada  con  un  cereal.  El  método  de  recuento  se  realizó  mediante  una  red  apropiada 
para  el  caso. 


Los  datos  siguientes  representan  la  distribución  de  los  resultados  muéstrales: 


Xi 

0 

1 

2 

3 

4 

5 

6 o más 

fi 

78 

167 

243 

215 

135 

81 

39 

a)  Sugerir  una  distribución  teórica  apropiada  de  donde  provendrían  estos  datos. 

b)  De  acuerdo  a la  respuesta  dada  en  a),  plantear  las  hipótesis,  el  estadístico  y sacar 
las  conclusiones  sabiendo  que  el  valor  p=0.312. 


La  tabla  siguiente  muestra  la  distribución  de  frecuencias  correspondientes  a la  ganancia 
de  peso  en  kg.  de  novillos  de  una  cierta  raza. 


Intervalos 

f¡ 

[59.5  ; 69.5) 

7 

11 

[79.5  ; 89.5) 

15 

9 

[99.5  ; 109.51 

8 

¿Puede  decir  si  la  distribución  de  la  variable  es  diferente  de  una  normal? 
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Tablas  Estadísticas 

TABLA  A :DISTRIBUCIÓN  BINOMIAL. 

TABLA  B :DISTRIBUCIÓN  POISSON. 

TABLA  C :DISTRIBUCIÓN  NORMAL  ESTÁNDAR. 
TABLA  D :DISTRIBUCIÓN  t de  STUDENT. 

TABLA  E :DISTRIBUCIÓN  JI-CUADRADO. 

TABLA  F :DISTRIBUCIÓN  F de  FISHER. 


TABLA  A 

Distribución  Binomial 


n 

k 

0.05 

0.1 

0.15 

mam 

0.25 

ISfiTEl 

lüTEfi 

0.45 

0.5 

1 

0.75 

H 

0.95 

i 

0 

0.9500 

0.9000 

0.8500 

0.8000 

0.7500 

0.7000 

0.6500 

0.6000 

0.5500 

0.5000 

0.4000 

0.3000 

0.2500 

0.2000 

0.1000 

0.0500 

1 

0.0500 

0.1000 

0.1500 

0.2000 

0.2500 

0.3000 

0.3500 

0.4000 

0.4500 

0.5000 

0.6000 

0.7000 

0.7500 

0.8000 

0.9000 

0.9500 

sm 

0 

0.9025 

0.8100 

0.7225 

0.6400 

0.5625 

0.4900 

0.4225 

0.3600 

0.3025 

0.2500 

0.1600 

0.0900 

0.0625 

0.0400 

0.0100 

0.0025 

1 

0.0950 

0.1800 

0.2550 

0.3200 

0.3750 

0.4200 

0.4550 

0.4800 

0.4950 

0.5000 

0.4800 

0.4200 

0.3750 

0.3200 

0.1800 

0.0950 

2 

0.0025 

0.0100 

0.0225 

0.0400 

0.0625 

0.0900 

0.1225 

0.1600 

0.2025 

0.2500 

0.3600 

0.4900 

0.5625 

0.6400 

0.8100 

0.9025 

0 

0.8574 

0.7290 

0.6141 

0.5120 

0.4219 

0.3430 

0.2746 

0.2160 

0.1664 

0.1250 

0.0640 

0.0270 

0.0156 

0.0080 

0.0010 

0.0001 

1 

0.1354 

0.2430 

0.3251 

0.3840 

0.4219 

0.4410 

0.4436 

0.4320 

0.4084 

0.3750 

0.2880 

0.1890 

0.1406 

0.0960 

0.0270 

0.0071 

2 

0.0071 

0.0270 

0.0574 

0.0960 

0.1406 

0.1890 

0.2389 

0.2880 

0.3341 

0.3750 

0.4320 

0.4410 

0.4219 

0.3840 

0.2430 

0.1354 

3 

0.0001 

0.0010 

0.0034 

0.0080 

0.0156 

0.0270 

0.0429 

0.0640 

0.0911 

0.1250 

0.2160 

0.3430 

0.4219 

0.5120 

0.7290 

0.8574 

kb 

0 

0.8145 

0.6561 

0.5220 

0.4096 

0.3164 

0.2401 

0.1785 

0.1296 

0.0915 

0.0625 

0.0256 

0.0081 

0.0039 

0.0016 

0.0001 

0.0000 

1 

0.1715 

0.2916 

0.3685 

0.4096 

0.4219 

0.4116 

0.3845 

0.3456 

0.2995 

0.2500 

0.1536 

0.0756 

0.0469 

0.0256 

0.0036 

0.0005 

2 

0.0135 

0.0486 

0.0975 

0.1536 

0.2109 

0.2646 

0.3105 

0.3456 

0.3675 

0.3750 

0.3456 

0.2646 

0.2109 

0.1536 

0.0486 

0.0135 

3 

0.0005 

0.0036 

0.0115 

0.0256 

0.0469 

0.0756 

0.1115 

0.1536 

0.2005 

0.2500 

0.3456 

0.4116 

0.4219 

0.4096 

0.2916 

0.1715 

4 

0.0000 

0.0001 

0.0005 

0.0016 

0.0039 

0.0081 

0.0150 

0.0256 

0.0410 

0.0625 

0.1296 

0.2401 

0.3164 

0.4096 

0.6561 

0.8145 

5 

0 

0.7738 

0.5905 

0.4437 

0.3277 

0.2373 

0.1681 

0.1160 

0.0778 

0.0503 

0.0313 

0.0102 

0.0024 

0.0010 

0.0003 

0.0000 

0.0000 

1 

0.2036 

0.3281 

0.3915 

0.4096 

0.3955 

0.3602 

0.3124 

0.2592 

0.2059 

0.1563 

0.0768 

0.0284 

0.0146 

0.0064 

0.0005 

0.0000 

2 

0.0214 

0.0729 

0.1382 

0.2048 

0.2637 

0.3087 

0.3364 

0.3456 

0.3369 

0.3125 

0.2304 

0.1323 

0.0879 

0.0512 

0.0081 

0.0011 

3 

0.0011 

0.0081 

0.0244 

0.0512 

0.0879 

0.1323 

0.1811 

0.2304 

0.2757 

0.3125 

0.3456 

0.3087 

0.2637 

0.2048 

0.0729 

0.0214 

4 

0.0000 

0.0005 

0.0022 

0.0064 

0.0146 

0.0284 

0.0488 

0.0768 

0.1128 

0.1563 

0.2592 

0.3602 

0.3955 

0.4096 

0.3281 

0.2036 

5 

0.0000 

0.0000 

0.0001 

0.0003 

0.0010 

0.0024 

0.0053 

0.0102 

0.0185 

0.0313 

0.0778 

0.1681 

0.2373 

0.3277 

0.5905 

0.7738 

6 

0 

0.7351 

0.5314 

0.3771 

0.2621 

0.1780 

0.1176 

0.0754 

0.0467 

0.0277 

0.0156 

0.0041 

0.0007 

0.0002 

0.0001 

0.0000 

0.0000 

1 

0.2321 

0.3543 

0.3993 

0.3932 

0.3560 

0.3025 

0.2437 

0.1866 

0.1359 

0.0938 

0.0369 

0.0102 

0.0044 

0.0015 

0.0001 

0.0000 

2 

0.0305 

0.0984 

0.1762 

0.2458 

0.2966 

0.3241 

0.3280 

0.3110 

0.2780 

0.2344 

0.1382 

0.0595 

0.0330 

0.0154 

0.0012 

0.0001 

3 

0.0021 

0.0146 

0.0415 

0.0819 

0.1318 

0.1852 

0.2355 

0.2765 

0.3032 

0.3125 

0.2765 

0.1852 

0.1318 

0.0819 

0.0146 

0.0021 

4 

0.0001 

0.0012 

0.0055 

0.0154 

0.0330 

0.0595 

0.0951 

0.1382 

0.1861 

0.2344 

0.3110 

0.3241 

0.2966 

0.2458 

0.0984 

0.0305 

5 

0.0000 

0.0001 

0.0004 

0.0015 

0.0044 

0.0102 

0.0205 

0.0369 

0.0609 

0.0938 

0.1866 

0.3025 

0.3560 

0.3932 

0.3543 

0.2321 

6 

0.0000 

0.0000 

0.0000 

0.0001 

0.0002 

0.0007 

0.0018 

0.0041 

0.0083 

0.0156 

0.0467 

0.1176 

0.1780 

0.2621 

0.5314 

0.7351 

7 

0 

0.6983 

0.4783 

0.3206 

0.2097 

0.1335 

0.0824 

0.0490 

0.0280 

0.0152 

0.0078 

0.0016 

0.0002 

0.0001 

0.0000 

0.0000 

0.0000 

1 

0.2573 

0.3720 

0.3960 

0.3670 

0.3115 

0.2471 

0.1848 

0.1306 

0.0872 

0.0547 

0.0172 

0.0036 

0.0013 

0.0004 

0.0000 

0.0000 

2 

0.0406 

0.1240 

0.2097 

0.2753 

0.3115 

0.3177 

0.2985 

0.2613 

0.2140 

0.1641 

0.0774 

0.0250 

0.0115 

0.0043 

0.0002 

0.0000 

3 

0.0036 

0.0230 

0.0617 

0.1147 

0.1730 

0.2269 

0.2679 

0.2903 

0.2918 

0.2734 

0.1935 

0.0972 

0.0577 

0.0287 

0.0026 

0.0002 

4 

0.0002 

0.0026 

0.0109 

0.0287 

0.0577 

0.0972 

0.1442 

0.1935 

0.2388 

0.2734 

0.2903 

0.2269 

0.1730 

0.1147 

0.0230 

0.0036 

5 

0.0000 

0.0002 

0.0012 

0.0043 

0.0115 

0.0250 

0.0466 

0.0774 

0.1172 

0.1641 

0.2613 

0.3177 

0.3115 

0.2753 

0.1240 

0.0406 

6 

0.0000 

0.0000 

0.0001 

0.0004 

0.0013 

0.0036 

0.0084 

0.0172 

0.0320 

0.0547 

0.1306 

0.2471 

0.3115 

0.3670 

0.3720 

0.2573 

7 

0.0000 

0.0000 

0.0000 

0.0000 

0.0001 

0.0002 

0.0006 

0.0016 

0.0037 

0.0078 

0.0280 

0.0824 

0.1335 

0.2097 

0.4783 

0.6983 

8 

0 

0.6634 

0.4305 

0.2725 

0.1678 

0.1001 

0.0576 

0.0319 

0.0168 

0.0084 

0.0039 

0.0007 

0.0001 

0.0000 

0.0000 

0.0000 

0.0000 

1 

0.2793 

0.3826 

0.3847 

0.3355 

0.2670 

0.1977 

0.1373 

0.0896 

0.0548 

0.0313 

0.0079 

0.0012 

0.0004 

0.0001 

0.0000 

0.0000 

2 

0.0515 

0.1488 

0.2376 

0.2936 

0.3115 

0.2965 

0.2587 

0.2090 

0.1569 

0.1094 

0.0413 

0.0100 

0.0038 

0.0011 

0.0000 

0.0000 

3 

0.0054 

0.0331 

0.0839 

0.1468 

0.2076 

0.2541 

0.2786 

0.2787 

0.2568 

0.2188 

0.1239 

0.0467 

0.0231 

0.0092 

0.0004 

0.0000 

4 

0.0004 

0.0046 

0.0185 

0.0459 

0.0865 

0.1361 

0.1875 

0.2322 

0.2627 

0.2734 

0.2322 

0.1361 

0.0865 

0.0459 

0.0046 

0.0004 

5 

0.0000 

0.0004 

0.0026 

0.0092 

0.0231 

0.0467 

0.0808 

0.1239 

0.1719 

0.2188 

0.2787 

0.2541 

0.2076 

0.1468 

0.0331 

0.0054 

6 

0.0000 

0.0000 

0.0002 

0.0011 

0.0038 

0.0100 

0.0217 

0.0413 

0.0703 

0.1094 

0.2090 

0.2965 

0.3115 

0.2936 

0.1488 

0.0515 

7 

0.0000 

0.0000 

0.0000 

0.0001 

0.0004 

0.0012 

0.0033 

0.0079 

0.0164 

0.0313 

0.0896 

0.1977 

0.2670 

0.3355 

0.3826 

0.2793 

8 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

0.0001 

0.0002 

0.0007 

0.0017 

0.0039 

0.0168 

0.0576 

0.1001 

0.1678 

0.4305 

0.6634 

9 

0 

0.6302 

0.3874 

0.2316 

0.1342 

0.0751 

0.0404 

0.0207 

0.0101 

0.0046 

0.0020 

0.0003 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

1 

0.2985 

0.3874 

0.3679 

0.3020 

0.2253 

0.1556 

0.1004 

0.0605 

0.0339 

0.0176 

0.0035 

0.0004 

0.0001 

0.0000 

0.0000 

0.0000 

2 

0.0629 

0.1722 

0.2597 

0.3020 

0.3003 

0.2668 

0.2162 

0.1612 

0.1110 

0.0703 

0.0212 

0.0039 

0.0012 

0.0003 

0.0000 

0.0000 

3 

0.0077 

0.0446 

0.1069 

0.1762 

0.2336 

0.2668 

0.2716 

0.2508 

0.2119 

0.1641 

0.0743 

0.0210 

0.0087 

0.0028 

0.0001 

0.0000 

4 

0.0006 

0.0074 

0.0283 

0.0661 

0.1168 

0.1715 

0.2194 

0.2508 

0.2600 

0.2461 

0.1672 

0.0735 

0.0389 

0.0165 

0.0008 

0.0000 

5 

0.0000 

0.0008 

0.0050 

0.0165 

0.0389 

0.0735 

0.1181 

0.1672 

0.2128 

0.2461 

0.2508 

0.1715 

0.1168 

0.0661 

0.0074 

0.0006 

6 

0.0000 

0.0001 

0.0006 

0.0028 

0.0087 

0.0210 

0.0424 

0.0743 

0.1160 

0.1641 

0.2508 

0.2668 

0.2336 

0.1762 

0.0446 

0.0077 

7 

0.0000 

0.0000 

0.0000 

0.0003 

0.0012 

0.0039 

0.0098 

0.0212 

0.0407 

0.0703 

0.1612 

0.2668 

0.3003 

0.3020 

0.1722 

0.0629 

8 

0.0000 

0.0000 

0.0000 

0.0000 

0.0001 

0.0004 

0.0013 

0.0035 

0.0083 

0.0176 

0.0605 

0.1556 

0.2253 

0.3020 

0.3874 

0.2985 

9 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

0.0001 

0.0003 

0.0008 

0.0020 

0.0101 

0.0404 

0.0751 

0.1342 

0.3874 

0.6302 

10 

0 

0.5987 

0.3487 

0.1969 

0.1074 

0.0563 

0.0282 

0.0135 

0.0060 

0.0025 

0.0010 

0.0001 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

1 

0.3151 

0.3874 

0.3474 

0.2684 

0.1877 

0.1211 

0.0725 

0.0403 

0.0207 

0.0098 

0.0016 

0.0001 

0.0000 

0.0000 

0.0000 

0.0000 

2 

0.0746 

0.1937 

0.2759 

0.3020 

0.2816 

0.2335 

0.1757 

0.1209 

0.0763 

0.0439 

0.0106 

0.0014 

0.0004 

0.0001 

0.0000 

0.0000 

3 

0.0105 

0.0574 

0.1298 

0.2013 

0.2503 

0.2668 

0.2522 

0.2150 

0.1665 

0.1172 

0.0425 

0.0090 

0.0031 

0.0008 

0.0000 

0.0000 

4 

0.0010 

0.0112 

0.0401 

0.0881 

0.1460 

0.2001 

0.2377 

0.2508 

0.2384 

0.2051 

0.1115 

0.0368 

0.0162 

0.0055 

0.0001 

0.0000 

5 

0.0001 

0.0015 

0.0085 

0.0264 

0.0584 

0.1029 

0.1536 

0.2007 

0.2340 

0.2461 

0.2007 

0.1029 

0.0584 

0.0264 

0.0015 

0.0001 

6 

0.0000 

0.0001 

0.0012 

0.0055 

0.0162 

0.0368 

0.0689 

0.1115 

0.1596 

0.2051 

0.2508 

0.2001 

0.1460 

0.0881 

0.0112 

0.0010 

7 

0.0000 

0.0000 

0.0001 

0.0008 

0.0031 

0.0090 

0.0212 

0.0425 

0.0746 

0.1172 

0.2150 

0.2668 

0.2503 

0.2013 

0.0574 

0.0105 

8 

0.0000 

0.0000 

0.0000 

0.0001 

0.0004 

0.0014 

0.0043 

0.0106 

0.0229 

0.0439 

0.1209 

0.2335 

0.2816 

0.3020 

0.1937 

0.0746 

TABLA  A (Continuación) 


1 p ! 

n 

k 

0.05 

0.1 

0.15 

TI 

0.25 

0.3 

0.35 

ÜHQ 

0.45 

0.5 

Mili 

nm 

n 

TI 

0.95 

10 

9 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

0.0001 

0.0005 

0.0016 

0.0042 

0.0098 

0.0403 

0.1211 

0.1877 

0.2684 

0.3874 

0.3151 

10 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

0.0001 

0.0003 

0.0010 

0.0060 

0.0282 

0.0563 

0.1074 

0.3487 

0.5987 

11 

0 

0.5688 

0.3138 

0.1673 

0.0859 

0.0422 

0.0198 

0.0088 

0.0036 

0.0014 

0.0005 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

1 

0.3293 

0.3835 

0.3248 

0.2362 

0.1549 

0.0932 

0.0518 

0.0266 

0.0125 

0.0054 

0.0007 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

2 

0.0867 

0.2131 

0.2866 

0.2953 

0.2581 

0.1998 

0.1395 

0.0887 

0.0513 

0.0269 

0.0052 

0.0005 

0.0001 

0.0000 

0.0000 

0.0000 

3 

0.0137 

0.0710 

0.1517 

0.2215 

0.2581 

0.2568 

0.2254 

0.1774 

0.1259 

0.0806 

0.0234 

0.0037 

0.0011 

0.0002 

0.0000 

0.0000 

4 

0.0014 

0.0158 

0.0536 

0.1107 

0.1721 

0.2201 

0.2428 

0.2365 

0.2060 

0.1611 

0.0701 

0.0173 

0.0064 

0.0017 

0.0000 

0.0000 

5 

0.0001 

0.0025 

0.0132 

0.0388 

0.0803 

0.1321 

0.1830 

0.2207 

0.2360 

0.2256 

0.1471 

0.0566 

0.0268 

0.0097 

0.0003 

0.0000 

6 

0.0000 

0.0003 

0.0023 

0.0097 

0.0268 

0.0566 

0.0985 

0.1471 

0.1931 

0.2256 

0.2207 

0.1321 

0.0803 

0.0388 

0.0025 

0.0001 

7 

0.0000 

0.0000 

0.0003 

0.0017 

0.0064 

0.0173 

0.0379 

0.0701 

0.1128 

0.1611 

0.2365 

0.2201 

0.1721 

0.1107 

0.0158 

0.0014 

8 

0.0000 

0.0000 

0.0000 

0.0002 

0.0011 

0.0037 

0.0102 

0.0234 

0.0462 

0.0806 

0.1774 

0.2568 

0.2581 

0.2215 

0.0710 

0.0137 

9 

0.0000 

0.0000 

0.0000 

0.0000 

0.0001 

0.0005 

0.0018 

0.0052 

0.0126 

0.0269 

0.0887 

0.1998 

0.2581 

0.2953 

0.2131 

0.0867 

10 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

0.0002 

0.0007 

0.0021 

0.0054 

0.0266 

0.0932 

0.1549 

0.2362 

0.3835 

0.3293 

11 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

0.0002 

0.0005 

0.0036 

0.0198 

0.0422 

0.0859 

0.3138 

0.5688 

12 

0 

0.5404 

0.2824 

0.1422 

0.0687 

0.0317 

0.0138 

0.0057 

0.0022 

0.0008 

0.0002 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

1 

0.3413 

0.3766 

0.3012 

0.2062 

0.1267 

0.0712 

0.0368 

0.0174 

0.0075 

0.0029 

0.0003 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

2 

0.0988 

0.2301 

0.2924 

0.2835 

0.2323 

0.1678 

0.1088 

0.0639 

0.0339 

0.0161 

0.0025 

0.0002 

0.0000 

0.0000 

0.0000 

0.0000 

3 

0.0173 

0.0852 

0.1720 

0.2362 

0.2581 

0.2397 

0.1954 

0.1419 

0.0923 

0.0537 

0.0125 

0.0015 

0.0004 

0.0001 

0.0000 

0.0000 

4 

0.0021 

0.0213 

0.0683 

0.1329 

0.1936 

0.2311 

0.2367 

0.2128 

0.1700 

0.1208 

0.0420 

0.0078 

0.0024 

0.0005 

0.0000 

0.0000 

5 

0.0002 

0.0038 

0.0193 

0.0532 

0.1032 

0.1585 

0.2039 

0.2270 

0.2225 

0.1934 

0.1009 

0.0291 

0.0115 

0.0033 

0.0000 

0.0000 

6 

0.0000 

0.0005 

0.0040 

0.0155 

0.0401 

0.0792 

0.1281 

0.1766 

0.2124 

0.2256 

0.1766 

0.0792 

0.0401 

0.0155 

0.0005 

0.0000 

7 

0.0000 

0.0000 

0.0006 

0.0033 

0.0115 

0.0291 

0.0591 

0.1009 

0.1489 

0.1934 

0.2270 

0.1585 

0.1032 

0.0532 

0.0038 

0.0002 

8 

0.0000 

0.0000 

0.0001 

0.0005 

0.0024 

0.0078 

0.0199 

0.0420 

0.0762 

0.1208 

0.2128 

0.2311 

0.1936 

0.1329 

0.0213 

0.0021 

9 

0.0000 

0.0000 

0.0000 

0.0001 

0.0004 

0.0015 

0.0048 

0.0125 

0.0277 

0.0537 

0.1419 

0.2397 

0.2581 

0.2362 

0.0852 

0.0173 

10 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

0.0002 

0.0008 

0.0025 

0.0068 

0.0161 

0.0639 

0.1678 

0.2323 

0.2835 

0.2301 

0.0988 

11 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

0.0001 

0.0003 

0.0010 

0.0029 

0.0174 

0.0712 

0.1267 

0.2062 

0.3766 

0.3413 

12 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

0.0001 

0.0002 

0.0022 

0.0138 

0.0317 

0.0687 

0.2824 

0.5404 

13 

0 

0.5133 

0.2542 

0.1209 

0.0550 

0.0238 

0.0097 

0.0037 

0.0013 

0.0004 

0.0001 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

1 

0.3512 

0.3672 

0.2774 

0.1787 

0.1029 

0.0540 

0.0259 

0.0113 

0.0045 

0.0016 

0.0001 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

2 

0.1109 

0.2448 

0.2937 

0.2680 

0.2059 

0.1388 

0.0836 

0.0453 

0.0220 

0.0095 

0.0012 

0.0001 

0.0000 

0.0000 

0.0000 

0.0000 

3 

0.0214 

0.0997 

0.1900 

0.2457 

0.2517 

0.2181 

0.1651 

0.1107 

0.0660 

0.0349 

0.0065 

0.0006 

0.0001 

0.0000 

0.0000 

0.0000 

4 

0.0028 

0.0277 

0.0838 

0.1535 

0.2097 

0.2337 

0.2222 

0.1845 

0.1350 

0.0873 

0.0243 

0.0034 

0.0009 

0.0001 

0.0000 

0.0000 

5 

0.0003 

0.0055 

0.0266 

0.0691 

0.1258 

0.1803 

0.2154 

0.2214 

0.1989 

0.1571 

0.0656 

0.0142 

0.0047 

0.0011 

0.0000 

0.0000 

6 

0.0000 

0.0008 

0.0063 

0.0230 

0.0559 

0.1030 

0.1546 

0.1968 

0.2169 

0.2095 

0.1312 

0.0442 

0.0186 

0.0058 

0.0001 

0.0000 

7 

0.0000 

0.0001 

0.0011 

0.0058 

0.0186 

0.0442 

0.0833 

0.1312 

0.1775 

0.2095 

0.1968 

0.1030 

0.0559 

0.0230 

0.0008 

0.0000 

8 

0.0000 

0.0000 

0.0001 

0.0011 

0.0047 

0.0142 

0.0336 

0.0656 

0.1089 

0.1571 

0.2214 

0.1803 

0.1258 

0.0691 

0.0055 

0.0003 

9 

0.0000 

0.0000 

0.0000 

0.0001 

0.0009 

0.0034 

0.0101 

0.0243 

0.0495 

0.0873 

0.1845 

0.2337 

0.2097 

0.1535 

0.0277 

0.0028 

10 

0.0000 

0.0000 

0.0000 

0.0000 

0.0001 

0.0006 

0.0022 

0.0065 

0.0162 

0.0349 

0.1107 

0.2181 

0.2517 

0.2457 

0.0997 

0.0214 

11 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

0.0001 

0.0003 

0.0012 

0.0036 

0.0095 

0.0453 

0.1388 

0.2059 

0.2680 

0.2448 

0.1109 

12 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

0.0001 

0.0005 

0.0016 

0.0113 

0.0540 

0.1029 

0.1787 

0.3672 

0.3512 

13 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

0.0001 

0.0013 

0.0097 

0.0238 

0.0550 

0.2542 

0.5133 

14 

0 

0.4877 

0.2288 

0.1028 

0.0440 

0.0178 

0.0068 

0.0024 

0.0008 

0.0002 

0.0001 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

1 

0.3593 

0.3559 

0.2539 

0.1539 

0.0832 

0.0407 

0.0181 

0.0073 

0.0027 

0.0009 

0.0001 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

2 

0.1229 

0.2570 

0.2912 

0.2501 

0.1802 

0.1134 

0.0634 

0.0317 

0.0141 

0.0056 

0.0005 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

3 

0.0259 

0.1142 

0.2056 

0.2501 

0.2402 

0.1943 

0.1366 

0.0845 

0.0462 

0.0222 

0.0033 

0.0002 

0.0000 

0.0000 

0.0000 

0.0000 

4 

0.0037 

0.0349 

0.0998 

0.1720 

0.2202 

0.2290 

0.2022 

0.1549 

0.1040 

0.0611 

0.0136 

0.0014 

0.0003 

0.0000 

0.0000 

0.0000 

5 

0.0004 

0.0078 

0.0352 

0.0860 

0.1468 

0.1963 

0.2178 

0.2066 

0.1701 

0.1222 

0.0408 

0.0066 

0.0018 

0.0003 

0.0000 

0.0000 

6 

0.0000 

0.0013 

0.0093 

0.0322 

0.0734 

0.1262 

0.1759 

0.2066 

0.2088 

0.1833 

0.0918 

0.0232 

0.0082 

0.0020 

0.0000 

0.0000 

7 

0.0000 

0.0002 

0.0019 

0.0092 

0.0280 

0.0618 

0.1082 

0.1574 

0.1952 

0.2095 

0.1574 

0.0618 

0.0280 

0.0092 

0.0002 

0.0000 

8 

0.0000 

0.0000 

0.0003 

0.0020 

0.0082 

0.0232 

0.0510 

0.0918 

0.1398 

0.1833 

0.2066 

0.1262 

0.0734 

0.0322 

0.0013 

0.0000 

9 

0.0000 

0.0000 

0.0000 

0.0003 

0.0018 

0.0066 

0.0183 

0.0408 

0.0762 

0.1222 

0.2066 

0.1963 

0.1468 

0.0860 

0.0078 

0.0004 

10 

0.0000 

0.0000 

0.0000 

0.0000 

0.0003 

0.0014 

0.0049 

0.0136 

0.0312 

0.0611 

0.1549 

0.2290 

0.2202 

0.1720 

0.0349 

0.0037 

11 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

0.0002 

0.0010 

0.0033 

0.0093 

0.0222 

0.0845 

0.1943 

0.2402 

0.2501 

0.1142 

0.0259 

12 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

0.0001 

0.0005 

0.0019 

0.0056 

0.0317 

0.1134 

0.1802 

0.2501 

0.2570 

0.1229 

13 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

0.0001 

0.0002 

0.0009 

0.0073 

0.0407 

0.0832 

0.1539 

0.3559 

0.3593 

14 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

0.0001 

0.0008 

0.0068 

0.0178 

0.0440 

0.2288 

0.4877 

10  0.0000  0.0005  0.0023  0.0076  0.0189  0.0378  0.0631  0.0901  0.1126  0.1251  0.1251  0.1137  0.0948  0.0729  0.0521  0.0347  0.0217  0.0128  0.0071  0.0037  0.0019  0.0009  0.0004  0.0002  0.0001 

11  0.0000  0.0002  0.0010  0.0037  0.0102  0.0224  0.0411  0.0646  0.0888  0.1085  0.1194  0.1194  0.1094  0.0926  0.0728  0.0534  0.0367  0.0237  0.0145  0.0084  0.0046  0.0024  0.0012  0.0006  0.0003 

12  0.0000  0.0001  0.0004  0.0018  0.0053  0.0127  0.0255  0.0437  0.0655  0.0874  0.1048  0.1144  0.1144  0.1056  0.0905  0.0724  0.0543  0.0383  0.0255  0.0161  0.0097  0.0055  0.0030  0.0016  0.0008 

13  0.0000  0.0000  0.0002  0.0008  0.0027  0.0070  0.0152  0.0281  0.0457  0.0661  0.0859  0.1015  0.1099  0.1099  0.1021  0.0885  0.0719  0.0550  0.0397  0.0272  0.0177  0.0109  0.0065  0.0037  0.0020 

14  0.0000  0.0000  0.0001  0.0004  0.0013  0.0037  0.0087  0.0174  0.0304  0.0473  0.0663  0.0844  0.0984  0.1060  0.1060  0.0989  0.0866  0.0713  0.0554  0.0409  0.0286  0.0191  0.0121  0.0074  0.0043 
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TABLA  B 

Distribución  de  Poisson 


TABLA  C 

Distribución  Normal  Estándar  (N(0,1)) 

Esta  tabla  presenta  la  probabilidad  acumulada 
P(Z  < z),  para  z > 0 


z 

P(Z<z) 

z 

P(Z<z) 

z 

P(Z<z) 

z 

P(Z<z) 

z 

P(Z<z) 

z 

P(Z<z) 

z 

P(Z<z) 

z 

P(Z<z) 

0.00 

0.5000 

0.50 

0.6915 

1.00 

0.8413 

1.50 

0.9332 

2.00 

0.9772 

2.50 

0.9938 

3.00 

0.9987 

3.50 

0.9998 

0.01 

0.5040 

0.51 

0.6950 

1.01 

0.8438 

1.51 

0.9345 

2.01 

0.9778 

2.51 

0.9940 

3.01 

0.9987 

3.51 

0.9998 

0.02 

0.5080 

0.52 

0.6985 

1.02 

0.8461 

1.52 

0.9357 

2.02 

0.9783 

2.52 

0.9941 

3.02 

0.9987 

3.52 

0.9998 

0.03 

0.5120 

0.53 

0.7019 

1.03 

0.8485 

1.53 

0.9370 

2.03 

0.9788 

2.53 

0.9943 

3.03 

0.9988 

3.53 

0.9998 

0.04 

0.5160 

0.54 

0.7054 

1.04 

0.8508 

1.54 

0.9382 

2.04 

0.9793 

2.54 

0.9945 

3.04 

0.9988 

3.54 

0.9998 

0.05 

0.5199 

0.55 

0.7088 

1.05 

0.8531 

1.55 

0.9394 

2.05 

0.9798 

2.55 

0.9946 

3.05 

0.9989 

3.55 

0.9998 

0.06 

0.5239 

0.56 

0.7123 

1.06 

0.8554 

1.56 

0.9406 

2.06 

0.9803 

2.56 

0.9948 

3.06 

0.9989 

3.56 

0.9998 

0.07 

0.5279 

0.57 

0.7157 

1.07 

0.8577 

1.57 

0.9418 

2.07 

0.9808 

2.57 

0.9949 

3.07 

0.9989 

3.57 

0.9998 

0.08 

0.5319 

0.58 

0.7190 

1.08 

0.8599 

1.58 

0.9429 

2.08 

0.9812 

2.58 

0.9951 

3.08 

0.9990 

3.58 

0.9998 

0.09 

0.5359 

0.59 

0.7224 

1.09 

0.8621 

1.59 

0.9441 

2.09 

0.9817 

2.59 

0.9952 

3.09 

0.9990 

3.59 

0.9998 

0.10 

0.5398 

0.60 

0.7257 

1.10 

0.8643 

1.60 

0.9452 

2.10 

0.9821 

2.60 

0.9953 

3.10 

0.9990 

3.60 

0.9998 

0.11 

0.5438 

0.61 

0.7291 

1.11 

0.8665 

1.61 

0.9463 

2.11 

0.9826 

2.61 

0.9955 

3.11 

0.9991 

3.61 

0.9998 

0.12 

0.5478 

0.62 

0.7324 

1.12 

0.8686 

1.62 

0.9474 

2.12 

0.9830 

2.62 

0.9956 

3.12 

0.9991 

3.62 

0.9999 

0.13 

0.5517 

0.63 

0.7357 

1.13 

0.8708 

1.63 

0.9484 

2.13 

0.9834 

2.63 

0.9957 

3.13 

0.9991 

3.63 

0.9999 

0.14 

0.5557 

0.64 

0.7389 

1.14 

0.8729 

1.64 

0.9495 

2.14 

0.9838 

2.64 

0.9959 

3.14 

0.9992 

3.64 

0.9999 

0.15 

0.5596 

0.65 

0.7422 

1.15 

0.8749 

1.65 

0.9505 

2.15 

0.9842 

2.65 

0.9960 

3.15 

0.9992 

3.65 

0.9999 

0.16 

0.5636 

0.66 

0.7454 

1.16 

0.8770 

1.66 

0.9515 

2.16 

0.9846 

2.66 

0.9961 

3.16 

0.9992 

3.66 

0.9999 

0.17 

0.5675 

0.67 

0.7486 

1.17 

0.8790 

1.67 

0.9525 

2.17 

0.9850 

2.67 

0.9962 

3.17 

0.9992 

3.67 

0.9999 

0.18 

0.5714 

0.68 

0.7517 

1.18 

0.8810 

1.68 

0.9535 

2.18 

0.9854 

2.68 

0.9963 

3.18 

0.9993 

3.68 

0.9999 

0.19 

0.5753 

0.69 

0.7549 

1.19 

0.8830 

1.69 

0.9545 

2.19 

0.9857 

2.69 

0.9964 

3.19 

0.9993 

3.69 

0.9999 

0.20 

0.5793 

0.70 

0.7580 

1.20 

0.8849 

1.70 

0.9554 

2.20 

0.9861 

2.70 

0.9965 

3.20 

0.9993 

3.70 

0.9999 

0.21 

0.5832 

0.71 

0.7611 

1.21 

0.8869 

1.71 

0.9564 

2.21 

0.9864 

2.71 

0.9966 

3.21 

0.9993 

3.71 

0.9999 

0.22 

0.5871 

0.72 

0.7642 

1.22 

0.8888 

1.72 

0.9573 

2.22 

0.9868 

2.72 

0.9967 

3.22 

0.9994 

3.72 

0.9999 

0.23 

0.5910 

0.73 

0.7673 

1.23 

0.8907 

1.73 

0.9582 

2.23 

0.9871 

2.73 

0.9968 

3.23 

0.9994 

3.73 

0.9999 

0.24 

0.5948 

0.74 

0.7704 

1.24 

0.8925 

1.74 

0.9591 

2.24 

0.9875 

2.74 

0.9969 

3.24 

0.9994 

3.74 

0.9999 

0.25 

0.5987 

0.75 

0.7734 

1.25 

0.8944 

1.75 

0.9599 

2.25 

0.9878 

2.75 

0.9970 

3.25 

0.9994 

3.75 

0.9999 

0.26 

0.6026 

0.76 

0.7764 

1.26 

0.8962 

1.76 

0.9608 

2.26 

0.9881 

2.76 

0.9971 

3.26 

0.9994 

3.76 

0.9999 

0.27 

0.6064 

0.77 

0.7794 

1.27 

0.8980 

1.77 

0.9616 

2.27 

0.9884 

2.77 

0.9972 

3.27 

0.9995 

3.77 

0.9999 

0.28 

0.6103 

0.78 

0.7823 

1.28 

0.8997 

1.78 

0.9625 

2.28 

0.9887 

2.78 

0.9973 

3.28 

0.9995 

3.78 

0.9999 

0.29 

0.6141 

0.79 

0.7852 

1.29 

0.9015 

1.79 

0.9633 

2.29 

0.9890 

2.79 

0.9974 

3.29 

0.9995 

3.79 

0.9999 

0.30 

0.6179 

0.80 

0.7881 

1.30 

0.9032 

1.80 

0.9641 

2.30 

0.9893 

2.80 

0.9974 

3.30 

0.9995 

3.80 

0.9999 

0.31 

0.6217 

0.81 

0.7910 

1.31 

0.9049 

1.81 

0.9649 

2.31 

0.9896 

2.81 

0.9975 

3.31 

0.9995 

3.81 

0.9999 

0.32 

0.6255 

0.82 

0.7939 

1.32 

0.9066 

1.82 

0.9656 

2.32 

0.9898 

2.82 

0.9976 

3.32 

0.9995 

3.82 

0.9999 

0.33 

0.6293 

0.83 

0.7967 

1.33 

0.9082 

1.83 

0.9664 

2.33 

0.9901 

2.83 

0.9977 

3.33 

0.9996 

3.83 

0.9999 

0.34 

0.6331 

0.84 

0.7995 

1.34 

0.9099 

1.84 

0.9671 

2.34 

0.9904 

2.84 

0.9977 

3.34 

0.9996 

3.84 

0.9999 

0.35 

0.6368 

0.85 

0.8023 

1.35 

0.9115 

1.85 

0.9678 

2.35 

0.9906 

2.85 

0.9978 

3.35 

0.9996 

3.85 

0.9999 

0.36 

0.6406 

0.86 

0.8051 

1.36 

0.9131 

1.86 

0.9686 

2.36 

0.9909 

2.86 

0.9979 

3.36 

0.9996 

3.86 

0.9999 

0.37 

0.6443 

0.87 

0.8078 

1.37 

0.9147 

1.87 

0.9693 

2.37 

0.9911 

2.87 

0.9979 

3.37 

0.9996 

3.87 

0.9999 

0.38 

0.6480 

0.88 

0.8106 

1.38 

0.9162 

1.88 

0.9699 

2.38 

0.9913 

2.88 

0.9980 

3.38 

0.9996 

3.88 

0.9999 

0.39 

0.6517 

0.89 

0.8133 

1.39 

0.9177 

1.89 

0.9706 

2.39 

0.9916 

2.89 

0.9981 

3.39 

0.9997 

3.89 

0.9999 

0.40 

0.6554 

0.90 

0.8159 

1.40 

0.9192 

1.90 

0.9713 

2.40 

0.9918 

2.90 

0.9981 

3.40 

0.9997 

3.90 

1.0000 

0.41 

0.6591 

0.91 

0.8186 

1.41 

0.9207 

1.91 

0.9719 

2.41 

0.9920 

2.91 

0.9982 

3.41 

0.9997 

3.91 

1.0000 

0.42 

0.6628 

0.92 

0.8212 

1.42 

0.9222 

1.92 

0.9726 

2.42 

0.9922 

2.92 

0.9982 

3.42 

0.9997 

3.92 

1.0000 

0.43 

0.6664 

0.93 

0.8238 

1.43 

0.9236 

1.93 

0.9732 

2.43 

0.9925 

2.93 

0.9983 

3.43 

0.9997 

3.93 

1.0000 

0.44 

0.6700 

0.94 

0.8264 

1.44 

0.9251 

1.94 

0.9738 

2.44 

0.9927 

2.94 

0.9984 

3.44 

0.9997 

3.94 

1.0000 

0.45 

0.6736 

0.95 

0.8289 

1.45 

0.9265 

1.95 

0.9744 

2.45 

0.9929 

2.95 

0.9984 

3.45 

0.9997 

3.95 

1.0000 

0.46 

0.6772 

0.96 

0.8315 

1.46 

0.9279 

1.96 

0.9750 

2.46 

0.9931 

2.96 

0.9985 

3.46 

0.9997 

3.96 

1.0000 

0.47 

0.6808 

0.97 

0.8340 

1.47 

0.9292 

1.97 

0.9756 

2.47 

0.9932 

2.97 

0.9985 

3.47 

0.9997 

3.97 

1.0000 

0.48 

0.6844 

0.98 

0.8365 

1.48 

0.9306 

1.98 

0.9761 

2.48 

0.9934 

2.98 

0.9986 

3.48 

0.9997 

3.98 

1.0000 

0.49 

0.6879 

0.99 

0.8389 

1.49 

0.9319 

1.99 

0.9767 

2.49 

0.9936 

2.99 

0.9986 

3.49 

0.9998 

3.99 

1.0000 

TABLA  E 

/'N 
/ \ 

/ \ 

Distribución  Ji-Cuadrado 

Peta  tahla  Ha  Ioq  \/alnrp<?  Hp  7 talpQ  mip 

/ \ 

r 

l ola  la Uia  Uu  luo  ValUlCo  UC  Zj  laico  l_j u c 

° 

z 

P(  Xn  ^ z)  = a 

a 

| 0.005 

0.01 

0.025 

0.05 

0.10 

0.20 

0.4 

0.50 

0.75 

0.90 

0.95 

0 .995  | 

n 

1 H 

1 

7.88 

6.63 

5.02 

3.84 

2.71 

1.64 

0.71 

0.45 

0.10 

0.02 

0.00 

0.00 

2 

10.60 

9.21 

7.38 

5.99 

4.61 

3.22 

1.83 

1.39 

0.58 

0.21 

0.10 

0.01 

3 

12.84 

11.34 

9.35 

7.81 

6.25 

4.64 

2.95 

2.37 

1 .21 

0.58 

0.35 

0.07 

4 

14.86 

13.28 

1 1 .14 

9.49 

7.78 

5.99 

4.04 

3.36 

1 .92 

1.06 

0.71 

0.21 

5 

16.75 

15.09 

12.83 

11.07 

9.24 

7.29 

5.13 

4.35 

2.67 

1.61 

1.15 

0.41 

6 

18.55 

16.81 

14.45 

12.59 

10.64 

8.56 

6.21 

5.35 

3.45 

2.20 

1.64 

0.68 

7 

20.28 

18.48 

16.01 

14.07 

12.02 

9.80 

7.28 

6.35 

4.25 

2.83 

2.17 

0.99 

8 

21.95 

20.09 

17.53 

15.51 

13.36 

11.03 

8.35 

7.34 

5.07 

3.49 

2.73 

1.34 

9 

23.59 

21.67 

19.02 

16.92 

14.68 

12.24 

9.41 

8.34 

5.90 

4.17 

3.33 

1.73 

10 

25.19 

23.21 

20.48 

18.31 

15.99 

13.44 

10.47 

9.34 

6.74 

4.87 

3.94 

2.16 

11 

26.76 

24.73 

21 .92 

19.68 

17.28 

14.63 

11.53 

10.34 

7.58 

5.58 

4.57 

2.60 

12 

28.30 

26.22 

23.34 

21.03 

18.55 

15.81 

12.58 

1 1.34 

8.44 

6.30 

5.23 

3.07 

13 

29.82 

27.69 

24.74 

22.36 

19.81 

16.98 

13.64 

12.34 

9.30 

7.04 

5.89 

3.57 

14 

31.32 

29.14 

26.12 

23.68 

21.06 

18.15 

14.69 

13.34 

10.17 

7.79 

6.57 

4.07 

15 

32.80 

30.58 

27.49 

25.00 

22.31 

19.31 

15.73 

14.34 

11.04 

8.55 

7.26 

4.60 

16 

34.27 

32.00 

28.85 

26.30 

23.54 

20.47 

16.78 

15.34 

11.91 

9.31 

7.96 

5.14 

17 

35.72 

33.41 

30.19 

27.59 

24.77 

21.61 

17.82 

16.34 

12.79 

10.09 

8.67 

5.70 

18 

37.16 

34.81 

31.53 

28.87 

25.99 

22.76 

18.87 

17.34 

13.68 

10.86 

9.39 

6.26 

19 

38.58 

36.19 

32.85 

30.14 

27.20 

23.90 

19.91 

18.34 

14.56 

11.65 

10.12 

6.84 

20 

40.00 

37.57 

34.17 

31.41 

28.41 

25.04 

20.95 

19.34 

15.45 

12.44 

10.85 

7.43 

21 

41.40 

38.93 

35.48 

32.67 

29.62 

26.17 

21.99 

20.34 

16.34 

13.24 

11.59 

8.03 

22 

42.80 

40.29 

36.78 

33.92 

30.81 

27.30 

23.03 

21.34 

17.24 

14.04 

12.34 

8.64 

23 

44.18 

41.64 

38.08 

35.17 

32.01 

28.43 

24.07 

22.34 

18.14 

14.85 

13.09 

9.26 

24 

45.56 

42.98 

39.36 

36.42 

33.20 

29.55 

25.1 1 

23.34 

19.04 

15.66 

13.85 

9.89 

25 

46.93 

44.31 

40.65 

37.65 

34.38 

30.68 

26.14 

24.34 

19.94 

16.47 

14.61 

10.52 

26 

48.29 

45.64 

41 .92 

38.89 

35.56 

31.79 

27.18 

25.34 

20.84 

17.29 

15.38 

11.16 

27 

49.65 

46.96 

43.19 

40.11 

36.74 

32.91 

28.21 

26.34 

21 .75 

18.11 

16.15 

1 1.81 

28 

50.99 

48.28 

44.46 

41.34 

37.92 

34.03 

29.25 

27.34 

22.66 

18.94 

16.93 

12.46 

29 

52.34 

49.59 

45.72 

42.56 

39.09 

35.14 

30.28 

28.34 

23.57 

19.77 

17.71 

13.12 

30 

53.67 

50.89 

46.98 

43.77 

40.26 

36.25 

31.32 

29.34 

24.48 

20.60 

18.49 

13.79 

31 

55.00 

52.19 

48.23 

44.99 

41.42 

37.36 

32.35 

30.34 

25.39 

21.43 

19.28 

14.46 

32 

56.33 

53.49 

49.48 

46.19 

42.58 

38.47 

33.38 

31.34 

26.30 

22.27 

20.07 

15.13 

33 

57.65 

54.78 

50.73 

47.40 

43.75 

39.57 

34.41 

32.34 

27.22 

23.11 

20.87 

15.82 

34 

58.96 

56.06 

51 .97 

48.60 

44.90 

40.68 

35.44 

33.34 

28.14 

23.95 

21.66 

16.50 

35 

60.27 

57.34 

53.20 

49.80 

46.06 

41.78 

36.47 

34.34 

29.05 

24.80 

22.47 

17.19 

36 

61.58 

58.62 

54.44 

51.00 

47.21 

42.88 

37.50 

35.34 

29.97 

25.64 

23.27 

17.89 

37 

62.88 

59.89 

55.67 

52.19 

48.36 

43.98 

38.53 

36.34 

30.89 

26.49 

24.07 

18.59 

38 

64.18 

61.16 

56.90 

53.38 

49.51 

45.08 

39.56 

37.34 

31 .81 

27.34 

24.88 

19.29 

39 

65.48 

62.43 

58.12 

54.57 

50.66 

46.17 

40.59 

38.34 

32.74 

28.20 

25.70 

20.00 

40 

66.77 

63.69 

59.34 

55.76 

51.81 

47.27 

41.62 

39.34 

33.66 

29.05 

26.51 

20.71 

45 

73.17 

69.96 

65.41 

61.66 

57.51 

52.73 

46.76 

44.34 

38.29 

33.35 

30.61 

24.31 

50 

79.49 

76.15 

71 .42 

67.50 

63.17 

58.16 

51.89 

49.33 

42.94 

37.69 

34.76 

27.99 

55 

85.75 

82.29 

77.38 

73.31 

68.80 

63.58 

57.02 

54.33 

47.61 

42.06 

38.96 

31.73 

60 

91.95 

88.38 

83.30 

79.08 

74.40 

68.97 

62.13 

59.33 

52.29 

46.46 

43.19 

35.53 

65 

98.10 

94.42 

89.18 

84.82 

79.97 

74.35 

67.25 

64.33 

56.99 

50.88 

47.45 

39.38 

70 

104.21 

100.43 

95.02 

90.53 

85.53 

79.71 

72.36 

69.33 

61 .70 

55.33 

51.74 

43.28 

75 

1 10.29 

106.39 

100.84 

96.22 

91.06 

85.07 

77.46 

74.33 

66.42 

59.79 

56.05 

47.21 

80 

1 16.32 

112.33 

106.63 

101.88 

96.58 

90.41 

82.57 

79.33 

71 .14 

64.28 

60.39 

51.17 

90 

128.30 

124.12 

118.14 

113.15 

107.57 

101.05 

92.76 

89.33 

80.62 

73.29 

69.13 

59.20 

100 

140.17 

135.81 

129.56 

124.34 

118.50 

111.67 

102.95 

99.33 

90.13 

82.36 

77.93 

67.33 

120 

163.65 

158.95 

152.21 

146.57 

140.23 

132.81 

123.29 

1 19.33 

109.22 

100.62 

95.70 

83.85 
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Las  ciencias  biológicas  y la  estadística  son  dos  lenguajes  que  histórica  - 
mente  se  han  desarrollado  en  estrecha  relación.  El  presente  texto, 
atendiendo  a este  vínculo  -a  partir  de  problematizaciones  derivadas 
del  campo  biológico-  intenta  introducir  al  estudiante  a la  metodología 
y teoría  estadística. 

Se  ha  tratado  de  respetar  los  contextos  reales  de  surgimiento  de  los 
problemas  de  diferentes  disciplinas  (veterinaria,  agronomía,  biología, 
etc.)  y al  mismo  tiempo  mantener  la  unidad  de  la  técnica  y su  funcio 
namiento.  Al  respecto,  se  pretende  evitar  tanto  la  "receta  instrumental" 
como  el  formalismo  poco  útil. 

Dado  que  el  texto  presenta  un  desarrollo  autocontenido  de  los 
conceptos  y relaciones,  para  su  comprensión  solo  son  necesarios 
conocimientos  elementales  de  matemática. 
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tigación y asesoramiento  estadístico  en  el  mismo  campo  disciplinar. 


UnlR  o 


Universidad  Nacional 


